論文の概要: FailureSensorIQ: A Multi-Choice QA Dataset for Understanding Sensor Relationships and Failure Modes
- arxiv url: http://arxiv.org/abs/2506.03278v1
- Date: Tue, 03 Jun 2025 18:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.995685
- Title: FailureSensorIQ: A Multi-Choice QA Dataset for Understanding Sensor Relationships and Failure Modes
- Title(参考訳): FailureSensorIQ: センサの関係と障害モードを理解するためのマルチコースQAデータセット
- Authors: Christodoulos Constantinides, Dhaval Patel, Shuxin Lin, Claudio Guerrero, Sunil Dagajirao Patil, Jayant Kalagnanam,
- Abstract要約: 本稿では,MCQA(Multi-Choice Question-Answering)ベンチマークシステムであるFailureSensorIQを紹介する。
従来のQAベンチマークとは異なり、本システムは障害モード、センサデータ、および各種産業資産間の関連性を通しての推論の複数の側面に焦点を当てている。
- 参考スコア(独自算出の注目度): 7.788259584005182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce FailureSensorIQ, a novel Multi-Choice Question-Answering (MCQA) benchmarking system designed to assess the ability of Large Language Models (LLMs) to reason and understand complex, domain-specific scenarios in Industry 4.0. Unlike traditional QA benchmarks, our system focuses on multiple aspects of reasoning through failure modes, sensor data, and the relationships between them across various industrial assets. Through this work, we envision a paradigm shift where modeling decisions are not only data-driven using statistical tools like correlation analysis and significance tests, but also domain-driven by specialized LLMs which can reason about the key contributors and useful patterns that can be captured with feature engineering. We evaluate the Industrial knowledge of over a dozen LLMs-including GPT-4, Llama, and Mistral-on FailureSensorIQ from different lens using Perturbation-Uncertainty-Complexity analysis, Expert Evaluation study, Asset-Specific Knowledge Gap analysis, ReAct agent using external knowledge-bases. Even though closed-source models with strong reasoning capabilities approach expert-level performance, the comprehensive benchmark reveals a significant drop in performance that is fragile to perturbations, distractions, and inherent knowledge gaps in the models. We also provide a real-world case study of how LLMs can drive the modeling decisions on 3 different failure prediction datasets related to various assets. We release: (a) expert-curated MCQA for various industrial assets, (b) FailureSensorIQ benchmark and Hugging Face leaderboard based on MCQA built from non-textual data found in ISO documents, and (c) LLMFeatureSelector, an LLM-based feature selection scikit-learn pipeline. The software is available at https://github.com/IBM/FailureSensorIQ.
- Abstract(参考訳): 我々は,大規模言語モデル(LLM)の複雑なドメイン固有のシナリオを推論し理解する能力を評価するために設計された,MCQA(Multi-Choice Question-Answering)ベンチマークシステムであるFailureSensorIQを紹介した。
従来のQAベンチマークとは異なり、本システムは障害モード、センサデータ、および各種産業資産間の関連性を通しての推論の複数の側面に焦点を当てている。
この作業を通じて、モデリング決定は相関分析や重要度テストといった統計ツールを使用してデータ駆動であるだけでなく、機能工学で捉えることのできる重要なコントリビュータや有用なパターンを推論できる専門的なLLMによってドメイン駆動される、というパラダイムシフトを構想する。
GPT-4, Llama, Mistral-on FailureSensorIQを含む10以上のLCMの産業的知識を, 摂動・不確実性・複雑度解析, 専門家評価, アセット・特殊知識ギャップ解析, 外部知識ベースを用いたReActエージェントを用いて評価した。
強力な推論能力を持つクローズドソースモデルは専門家レベルのパフォーマンスにアプローチするが、包括的なベンチマークでは、モデル内の摂動や気晴らし、固有の知識ギャップに対して脆弱なパフォーマンスが著しく低下している。
また、LLMが様々な資産に関連する3つの異なる障害予測データセットのモデリング決定をどのように進めるかを実世界のケーススタディで検証する。
リリースは以下の通り。
(a)各種産業資産の専門格MCQA
b)ISO文書にある非テキストデータから構築されたMCQAに基づくFailureSensorIQベンチマークとHugging Faceリーダーボード
(c) LLMFeatureSelector - LLMベースの特徴選択パイプライン。
このソフトウェアはhttps://github.com/IBM/FailureSensorIQで入手できる。
関連論文リスト
- EIAD: Explainable Industrial Anomaly Detection Via Multi-Modal Large Language Models [23.898938659720503]
工業異常検出(IAD)は製造中の製品品質を確保するために重要である。
本稿では,コア特徴抽出からダイアログ機能を分離する専用マルチモーダル欠陥ローカライゼーションモジュールを提案する。
私たちはまた、Defect Detection Question Answering (DDQA) という、最初のマルチモーダル産業異常検出トレーニングデータセットにも貢献する。
論文 参考訳(メタデータ) (2025-03-18T11:33:29Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - A Soft Sensor Method with Uncertainty-Awareness and Self-Explanation Based on Large Language Models Enhanced by Domain Knowledge Retrieval [17.605817344542345]
Few-shot Uncertainty-aware and Self-Explaining Soft Sensor (LLM-FUESS) というフレームワークを提案する。
LLM-FUESSには、ゼロショット補助可変セレクタ(LLM-ZAVS)と不確実性認識Few-shot Soft Sensor(LLM-UFSS)が含まれている。
提案手法は,最先端の予測性能,強靭性,柔軟性を実現し,従来の手法のトレーニング不安定性を効果的に軽減する。
論文 参考訳(メタデータ) (2025-01-06T11:43:29Z) - Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection [9.652886240532741]
本稿では,ソースコードの脆弱性検出における大規模言語モデルの機能について,徹底的に解析する。
我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-08-29T10:00:57Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。