論文の概要: RAFFLES: Reasoning-based Attribution of Faults for LLM Systems
- arxiv url: http://arxiv.org/abs/2509.06822v1
- Date: Mon, 08 Sep 2025 15:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.229759
- Title: RAFFLES: Reasoning-based Attribution of Faults for LLM Systems
- Title(参考訳): RAFFLES:LLMシステムのための推論に基づく故障の属性
- Authors: Chenyang Zhu, Spencer Hong, Jingyu Wu, Kushal Chawla, Charlotte Tang, Youbing Yin, Nathan Wolfe, Erin Babinsky, Daben Liu,
- Abstract要約: RAFFLESは、推論と反復的な洗練を取り入れた評価アーキテクチャである。
RAFFLESは繰り返し多成分パイプラインとして動作し、中央ジャッジを使用して障害を体系的に調査する。
その結果,自律システムに自動故障検出を導入するための重要なステップが示された。
- 参考スコア(独自算出の注目度): 4.950398945013938
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We have reached a critical roadblock in the development and enhancement of long-horizon, multi-component LLM agentic systems: it is incredibly tricky to identify where these systems break down and why. Evaluation capabilities that currently exist today (e.g., single pass LLM-as-a-judge) are limited in that they often focus on individual metrics or capabilities, end-to-end outcomes, and are narrowly grounded on the preferences of humans. We argue that to match the agentic capabilities, evaluation frameworks must also be able to reason, probe, iterate, and understand the complex logic passing through these systems over long horizons. In this paper, we present RAFFLES - an evaluation architecture that incorporates reasoning and iterative refinement. Specifically, RAFFLES operates as an iterative, multi-component pipeline, using a central Judge to systematically investigate faults and a set of specialized Evaluators to assess not only the system's components but also the quality of the reasoning by the Judge itself, thereby building a history of hypotheses. We tested RAFFLES against several baselines on the Who&When dataset, a benchmark designed to diagnose the "who" (agent) and "when" (step) of a system's failure. RAFFLES outperforms these baselines, achieving an agent-step fault pair accuracy of over 43% on the Algorithmically-Generated dataset (a substantial increase from the previously published best of 16.6%) and over 20% on the Hand-Crafted dataset (surpassing the previously published best of 8.8%). These results demonstrate a key step towards introducing automated fault detection for autonomous systems over labor-intensive manual human review.
- Abstract(参考訳): 我々は、長期にわたる多成分LLMエージェントシステムの開発と強化において、重要な障害に達しました。
現在存在する評価能力(例えば、シングルパスのLSM-as-a-judge)は、個々のメトリクスや能力、エンドツーエンドの結果に重点を置いており、人間の好みに狭く根ざしているという点で制限されている。
エージェントの能力に合わせて、評価フレームワークは、長い地平線を越えてこれらのシステムを通過する複雑なロジックを推論し、調査し、反復し、理解しなければなりません。
本稿では,推論と反復的洗練を取り入れた評価アーキテクチャであるRAFFLESを提案する。
具体的には、RAFFLESは、障害を体系的に調査する中央裁判官と、システムのコンポーネントだけでなく、裁判官自身による推論の質を評価する専門的評価者のセットを使用して、反復的な多成分パイプラインとして機能し、仮説の歴史を構築する。
私たちは、システムの障害の"誰"(エージェント)と"いつ"(ステップ)を診断するように設計されたベンチマークであるWho&Whenデータセットのベースラインに対して、RAFFLESをテストしました。
RAFFLESはこれらのベースラインよりも優れており、アルゴリズム生成データセットではエージェントステップの故障ペアの精度が43%以上、ハンドクラフトデータセットでは20%以上向上している。
これらの結果は、労働集約的な人手によるレビューよりも、自律システムに自動故障検出を導入するための重要なステップを示している。
関連論文リスト
- RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。
この手法は2003年にTREC Question Answering (QA) Trackのために開発された。
完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文 参考訳(メタデータ) (2025-04-21T12:55:06Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - JuStRank: Benchmarking LLM Judges for System Ranking [7.507819077549208]
我々はLLM審査員をシステムランクラーとして大規模に調査した。
システムスコアは、複数のシステム出力に対して判定スコアを集約することで生成される。
我々の分析は、判断力や偏見を含む判断行動のきめ細かい特徴を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:51:13Z) - Limitations of Automatic Relevance Assessments with Large Language Models for Fair and Reliable Retrieval Evaluation [2.9180406633632523]
大規模言語モデル(LLM)は,自動関連性評価ツールとして注目されている。
近年の研究では、LLMに基づく評価が、人為的判断と高いシステムランキングの相関をもたらすことが示されている。
我々は,LLMによる判断が,上位評価システム間の順位差をいかに保っているか,また,人間の判断として相互に重要な評価を保っているかを検討する。
論文 参考訳(メタデータ) (2024-11-20T11:19:35Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - tieval: An Evaluation Framework for Temporal Information Extraction
Systems [2.3035364984111495]
過去20年間、時間的情報抽出は大きな関心を集めてきた。
大量のコーパスにアクセスすることは、TIEシステムのベンチマークに関して難しい。
tievalはPythonライブラリで、異なるコーパスをインポートするための簡潔なインターフェースを提供し、システム評価を容易にする。
論文 参考訳(メタデータ) (2023-01-11T18:55:22Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。