論文の概要: JFTA-Bench: Evaluate LLM's Ability of Tracking and Analyzing Malfunctions Using Fault Trees
- arxiv url: http://arxiv.org/abs/2603.22978v1
- Date: Tue, 24 Mar 2026 09:13:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.399044
- Title: JFTA-Bench: Evaluate LLM's Ability of Tracking and Analyzing Malfunctions Using Fault Trees
- Title(参考訳): JFTA-Bench:障害木を用いたLLMの追跡・解析能力の評価
- Authors: Yuhui Wang, Zhixiong Yang, Ming Zhang, Shihan Dou, Zhiheng Xi, Enyu Zhou, Senjie Jin, Yujiong Shen, Dingwei Zhu, Yi Dong, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: 複雑なシステムのメンテナンスにおいて、障害木は問題を特定し、ターゲットとするソリューションを提供するために使用される。
画像として格納されたフォールトツリーを,大規模言語モデルで直接処理可能にするために,新しいフォールトツリーのテキスト表現を提案する。
複雑な環境におけるロバストな相互作用を強調するマルチターン対話システムのためのベンチマークを構築した。
- 参考スコア(独自算出の注目度): 64.57426735981902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the maintenance of complex systems, fault trees are used to locate problems and provide targeted solutions. To enable fault trees stored as images to be directly processed by large language models, which can assist in tracking and analyzing malfunctions, we propose a novel textual representation of fault trees. Building on it, we construct a benchmark for multi-turn dialogue systems that emphasizes robust interaction in complex environments, evaluating a model's ability to assist in malfunction localization, which contains $3130$ entries and $40.75$ turns per entry on average. We train an end-to-end model to generate vague information to reflect user behavior and introduce long-range rollback and recovery procedures to simulate user error scenarios, enabling assessment of a model's integrated capabilities in task tracking and error recovery, and Gemini 2.5 pro archives the best performance.
- Abstract(参考訳): 複雑なシステムの保守において、障害木は問題を特定し、ターゲットとするソリューションを提供するために使用される。
画像として格納されたフォールトツリーを大規模言語モデルで直接処理し,故障の追跡と解析を支援するために,新しいフォールトツリーのテキスト表現を提案する。
そこで我々は,複雑な環境下でのロバストな相互作用を重視したマルチターン対話システムのためのベンチマークを構築し,平均3130ドルのエントリと40.75ドルのターンを含む誤動作の局所化を支援するモデルの能力を評価する。
本稿では,ユーザ動作を反映した曖昧な情報を生成するためにエンド・ツー・エンドのモデルをトレーニングし,ユーザエラーシナリオをシミュレートする長距離ロールバックとリカバリ手順を導入し,タスクトラッキングとエラーリカバリにおけるモデル統合機能の評価を可能にし,Gemini 2.5 Proが最高のパフォーマンスをアーカイブする。
関連論文リスト
- ReIn: Conversational Error Recovery with Reasoning Inception [43.5498321001366]
本研究は,誤対話コンテキストの正確な診断と適切な回復計画の実行を必要とする誤り回復に焦点を当てる。
エージェントの意思決定プロセスに初期推論を組み込むテスト時間介入手法であるReasoning Inception (ReIn)を提案する。
ユーザ目標の達成を阻害する会話障害シナリオをシステマティックにシミュレートすることでReInを評価する。
論文 参考訳(メタデータ) (2026-02-19T02:37:29Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - Diagnosing Failures in Large Language Models' Answers: Integrating Error Attribution into Evaluation Framework [2.0364208478403554]
詳細な分析を容易にするため、6つのプライマリカテゴリと15のセカンダリカテゴリを備えたミサトリビューションフレームワークを構築した。
本稿では,誤り帰属に特化して設計されたデータセットであるAttriDataについて述べる。
また,AttriData上での微調整モデルであるMisAttributionLLMを提案する。
論文 参考訳(メタデータ) (2025-07-11T10:02:21Z) - Integrating Expert Knowledge into Logical Programs via LLMs [3.637365301757111]
ExKLoPは、大規模言語モデルが専門家の知識を論理的推論システムに統合する方法を評価するために設計されたフレームワークである。
この能力は特にエンジニアリングにおいて有用であり、製造業者が推奨する運用範囲などの専門家の知識を、自動化された監視システムに直接組み込むことができる。
論文 参考訳(メタデータ) (2025-02-17T19:18:23Z) - ACEBench: Who Wins the Match Point in Tool Usage? [86.79310356779108]
ACEBenchは、Large Language Models (LLMs)におけるツールの使用状況を評価するための包括的なベンチマークである。
データを評価方法論に基づく3つの主要なタイプに分類する。
これは、異なるデータタイプにわたるエラー原因をよりきめ細かい検査を提供する。
論文 参考訳(メタデータ) (2025-01-22T12:59:08Z) - Can foundation models actively gather information in interactive environments to test hypotheses? [43.42688356541211]
基礎モデルはシングルターン推論において優れているが、動的環境におけるマルチターン探索に苦慮している。
これらのモデルを,経験から学び,適応し,情報を収集する能力に基づいて評価した。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - $\text{R}^2$-Bench: Benchmarking the Robustness of Referring Perception
Models under Perturbations [36.74309198908876]
摂動の包括的分類法を提案し, 複合障害の効果を合成・評価するための汎用ツールボックスを開発した。
LLMをベースとしたエージェントであるtextR2$-Agentを提案する。
論文 参考訳(メタデータ) (2024-03-07T22:18:12Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - Discovering and Validating AI Errors With Crowdsourced Failure Reports [10.4818618376202]
クラウドソースの障害レポートや、モデルが失敗した理由や理由に関するエンドユーザの説明を導入し、開発者がAIエラーの検出にどのように使用できるかを示します。
また、障害レポートを合成する視覚分析システムであるDeblinderを設計、実装する。
半構造化されたインタビューと10人のAI実践者とのシンク・アラウド・スタディでは、現実の環境でのDeblinderシステムと障害報告の適用可能性について検討する。
論文 参考訳(メタデータ) (2021-09-23T23:26:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。