論文の概要: FailureSensorIQ: A Multi-Choice QA Dataset for Understanding Sensor Relationships and Failure Modes
- arxiv url: http://arxiv.org/abs/2506.03278v1
- Date: Tue, 03 Jun 2025 18:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.995685
- Title: FailureSensorIQ: A Multi-Choice QA Dataset for Understanding Sensor Relationships and Failure Modes
- Title(参考訳): FailureSensorIQ: センサの関係と障害モードを理解するためのマルチコースQAデータセット
- Authors: Christodoulos Constantinides, Dhaval Patel, Shuxin Lin, Claudio Guerrero, Sunil Dagajirao Patil, Jayant Kalagnanam,
- Abstract要約: 本稿では,MCQA(Multi-Choice Question-Answering)ベンチマークシステムであるFailureSensorIQを紹介する。
従来のQAベンチマークとは異なり、本システムは障害モード、センサデータ、および各種産業資産間の関連性を通しての推論の複数の側面に焦点を当てている。
- 参考スコア(独自算出の注目度): 7.788259584005182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce FailureSensorIQ, a novel Multi-Choice Question-Answering (MCQA) benchmarking system designed to assess the ability of Large Language Models (LLMs) to reason and understand complex, domain-specific scenarios in Industry 4.0. Unlike traditional QA benchmarks, our system focuses on multiple aspects of reasoning through failure modes, sensor data, and the relationships between them across various industrial assets. Through this work, we envision a paradigm shift where modeling decisions are not only data-driven using statistical tools like correlation analysis and significance tests, but also domain-driven by specialized LLMs which can reason about the key contributors and useful patterns that can be captured with feature engineering. We evaluate the Industrial knowledge of over a dozen LLMs-including GPT-4, Llama, and Mistral-on FailureSensorIQ from different lens using Perturbation-Uncertainty-Complexity analysis, Expert Evaluation study, Asset-Specific Knowledge Gap analysis, ReAct agent using external knowledge-bases. Even though closed-source models with strong reasoning capabilities approach expert-level performance, the comprehensive benchmark reveals a significant drop in performance that is fragile to perturbations, distractions, and inherent knowledge gaps in the models. We also provide a real-world case study of how LLMs can drive the modeling decisions on 3 different failure prediction datasets related to various assets. We release: (a) expert-curated MCQA for various industrial assets, (b) FailureSensorIQ benchmark and Hugging Face leaderboard based on MCQA built from non-textual data found in ISO documents, and (c) LLMFeatureSelector, an LLM-based feature selection scikit-learn pipeline. The software is available at https://github.com/IBM/FailureSensorIQ.
- Abstract(参考訳): 我々は,大規模言語モデル(LLM)の複雑なドメイン固有のシナリオを推論し理解する能力を評価するために設計された,MCQA(Multi-Choice Question-Answering)ベンチマークシステムであるFailureSensorIQを紹介した。
従来のQAベンチマークとは異なり、本システムは障害モード、センサデータ、および各種産業資産間の関連性を通しての推論の複数の側面に焦点を当てている。
この作業を通じて、モデリング決定は相関分析や重要度テストといった統計ツールを使用してデータ駆動であるだけでなく、機能工学で捉えることのできる重要なコントリビュータや有用なパターンを推論できる専門的なLLMによってドメイン駆動される、というパラダイムシフトを構想する。
GPT-4, Llama, Mistral-on FailureSensorIQを含む10以上のLCMの産業的知識を, 摂動・不確実性・複雑度解析, 専門家評価, アセット・特殊知識ギャップ解析, 外部知識ベースを用いたReActエージェントを用いて評価した。
強力な推論能力を持つクローズドソースモデルは専門家レベルのパフォーマンスにアプローチするが、包括的なベンチマークでは、モデル内の摂動や気晴らし、固有の知識ギャップに対して脆弱なパフォーマンスが著しく低下している。
また、LLMが様々な資産に関連する3つの異なる障害予測データセットのモデリング決定をどのように進めるかを実世界のケーススタディで検証する。
リリースは以下の通り。
(a)各種産業資産の専門格MCQA
b)ISO文書にある非テキストデータから構築されたMCQAに基づくFailureSensorIQベンチマークとHugging Faceリーダーボード
(c) LLMFeatureSelector - LLMベースの特徴選択パイプライン。
このソフトウェアはhttps://github.com/IBM/FailureSensorIQで入手できる。
関連論文リスト
- CORE: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks [12.465309397733249]
大規模言語モデル(LLM)は様々なソフトウェア工学領域で広く採用されている。
これらのアプリケーションは、表面レベルのコードパターン以上の理解を必要とします。
既存のベンチマークは、コードが正しく修正されるか、生成されたかといったエンドツーエンドの結果を主に評価する。
論文 参考訳(メタデータ) (2025-07-03T01:35:58Z) - EIAD: Explainable Industrial Anomaly Detection Via Multi-Modal Large Language Models [23.898938659720503]
工業異常検出(IAD)は製造中の製品品質を確保するために重要である。
本稿では,コア特徴抽出からダイアログ機能を分離する専用マルチモーダル欠陥ローカライゼーションモジュールを提案する。
私たちはまた、Defect Detection Question Answering (DDQA) という、最初のマルチモーダル産業異常検出トレーニングデータセットにも貢献する。
論文 参考訳(メタデータ) (2025-03-18T11:33:29Z) - Can Multimodal Large Language Models be Guided to Improve Industrial Anomaly Detection? [5.979778557940213]
従来の産業異常検出モデルは、しばしば柔軟性と適応性に苦しむ。
MLLM(Multimodal Large Language Models)の最近の進歩は、これらの制限を克服することを約束している。
IADのためのMLLM性能を向上させるために設計された,新しいマルチエキスパートフレームワークであるEchoを提案する。
論文 参考訳(メタデータ) (2025-01-27T05:41:10Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - A Soft Sensor Method with Uncertainty-Awareness and Self-Explanation Based on Large Language Models Enhanced by Domain Knowledge Retrieval [17.605817344542345]
Few-shot Uncertainty-aware and Self-Explaining Soft Sensor (LLM-FUESS) というフレームワークを提案する。
LLM-FUESSには、ゼロショット補助可変セレクタ(LLM-ZAVS)と不確実性認識Few-shot Soft Sensor(LLM-UFSS)が含まれている。
提案手法は,最先端の予測性能,強靭性,柔軟性を実現し,従来の手法のトレーニング不安定性を効果的に軽減する。
論文 参考訳(メタデータ) (2025-01-06T11:43:29Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection [9.652886240532741]
本稿では,ソースコードの脆弱性検出における大規模言語モデルの機能について,徹底的に解析する。
我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-08-29T10:00:57Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。