論文の概要: AgentHallu: Benchmarking Automated Hallucination Attribution of LLM-based Agents
- arxiv url: http://arxiv.org/abs/2601.06818v1
- Date: Sun, 11 Jan 2026 09:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.011256
- Title: AgentHallu: Benchmarking Automated Hallucination Attribution of LLM-based Agents
- Title(参考訳): AgentHallu: LLMベースのエージェントの幻覚自動属性のベンチマーク
- Authors: Xuannan Liu, Xiao Yang, Zekun Li, Peipei Li, Ran He,
- Abstract要約: 単ターン応答における幻覚検出には、どのステップが最初の発散を引き起こすかを特定する必要がある。
そこで本研究では,LLMをベースとしたエージェントの自動幻覚帰属(automatic hallucination attribution of LLM-based agent)を提案する。
AgentHalluは7つのエージェントフレームワークと5つのドメインにまたがる693の高品質なトラジェクトリを備えた総合ベンチマークである。
最高のパフォーマンスモデルは41.1%のステップのローカライズ精度しか達成せず、道具の使用による幻覚が最も難しいのは11.6%である。
- 参考スコア(独自算出の注目度): 30.66751974860931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLM-based agents operate over sequential multi-step reasoning, hallucinations arising at intermediate steps risk propagating along the trajectory, thus degrading overall reliability. Unlike hallucination detection in single-turn responses, diagnosing hallucinations in multi-step workflows requires identifying which step causes the initial divergence. To fill this gap, we propose a new research task, automated hallucination attribution of LLM-based agents, aiming to identify the step responsible for the hallucination and explain why. To support this task, we introduce AgentHallu, a comprehensive benchmark with: (1) 693 high-quality trajectories spanning 7 agent frameworks and 5 domains, (2) a hallucination taxonomy organized into 5 categories (Planning, Retrieval, Reasoning, Human-Interaction, and Tool-Use) and 14 sub-categories, and (3) multi-level annotations curated by humans, covering binary labels, hallucination-responsible steps, and causal explanations. We evaluate 13 leading models, and results show the task is challenging even for top-tier models (like GPT-5, Gemini-2.5-Pro). The best-performing model achieves only 41.1\% step localization accuracy, where tool-use hallucinations are the most challenging at just 11.6\%. We believe AgentHallu will catalyze future research into developing robust, transparent, and reliable agentic systems.
- Abstract(参考訳): LLMをベースとしたエージェントが連続的な多段階推論を経るにつれて、中間ステップで発生する幻覚が軌道に沿って伝播し、全体的な信頼性が低下する。
単ターン応答における幻覚検出とは異なり、多段階ワークフローにおける幻覚の診断には、最初の発散の原因となるステップを特定する必要がある。
このギャップを埋めるために,LLMをベースとしたエージェントによる幻覚の自動帰属という新たな研究課題を提案し,幻覚の原因となるステップを特定し,その理由を説明する。
この課題を支援するために,(1)エージェントフレームワークと5つのドメインにまたがる高品質なトラジェクトリであるAgenHallu,(2)5つのカテゴリ(Planning,Retrieval,Reasoning,Human-Interaction,Tool-Use)と14のサブカテゴリからなる幻覚分類,(3)人間によってキュレートされたマルチレベルアノテーション,2)バイナリラベル,幻覚応答性ステップ,そして因果説明を備えた総合的なベンチマークであるAgenHalluを紹介した。
上位13モデル(GPT-5, Gemini-2.5-Pro など)でもタスクが困難であることを示す。
最高のパフォーマンスモデルは41.1\%のステップローカライズ精度しか達成せず、ツール使用の幻覚はわずか11.6\%で最も難しい。
我々はAgentHalluが、堅牢で透明で信頼性の高いエージェントシステムを開発するための将来の研究を触媒すると信じている。
関連論文リスト
- LLM-based Agents Suffer from Hallucinations: A Survey of Taxonomy, Methods, and Directions [80.12078194093013]
LLMをベースとした幻覚の包括的調査を行った。
そこで本研究では,異なる段階において発生するさまざまな種類の幻覚を識別する新しい分類法を提案する。
エージェント幻覚の出現の根底にある18の要因について詳細な検討を行った。
論文 参考訳(メタデータ) (2025-09-23T13:24:48Z) - MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。
MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T17:38:29Z) - Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。
我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。
MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - SelfCheckAgent: Zero-Resource Hallucination Detection in Generative Large Language Models [0.16385815610837165]
SelfCheckAgentは、3つの異なるエージェントを統合する新しいフレームワークである。
これらのエージェントは幻覚検出に対する堅牢な多次元アプローチを提供する。
このフレームワークには三角形戦略も組み込まれており、SelfCheckAgentの強みを高めている。
論文 参考訳(メタデータ) (2025-02-03T20:42:32Z) - FG-PRM: Fine-grained Hallucination Detection and Mitigation in Language Model Mathematical Reasoning [18.927164579769066]
既存のアプローチは、主に幻覚の存在を検知するが、それらのタイプや表現の微妙な理解は欠如している。
数学的推論タスクにおける一般的な幻覚を6つのタイプに分類する包括的分類法を導入する。
次に,FG-PRM(FG-PRM)を提案する。
論文 参考訳(メタデータ) (2024-10-08T19:25:26Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector [114.88975874411142]
幻覚検出は大規模言語モデル(LLM)にとって難しい課題である
本稿では,HluAgentと呼ばれる自律型LLMエージェントフレームワークを提案する。
HaluAgentでは、LLM、多機能ツールボックスを統合し、きめ細かい3段階検出フレームワークを設計する。
論文 参考訳(メタデータ) (2024-06-17T07:30:05Z) - Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。