論文の概要: Why Your Deep Research Agent Fails? On Hallucination Evaluation in Full Research Trajectory
- arxiv url: http://arxiv.org/abs/2601.22984v1
- Date: Fri, 30 Jan 2026 13:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.482919
- Title: Why Your Deep Research Agent Fails? On Hallucination Evaluation in Full Research Trajectory
- Title(参考訳): なぜディープリサーチエージェントが失敗するのか? -全研究軌跡における幻覚評価について-
- Authors: Yuhao Zhan, Tianyu Fan, Linxuan Huang, Zirui Guo, Chao Huang,
- Abstract要約: 深層研究エージェント(DRA)の故障メカニズムの診断は依然として重要な課題である。
既存のベンチマークは主にエンドツーエンドの評価に依存しており、重要な中間幻覚を隠している。
機能成分とエラー特性に沿った幻覚を分類するためにPIES分類を導入した。
- 参考スコア(独自算出の注目度): 7.41972830438376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diagnosing the failure mechanisms of Deep Research Agents (DRAs) remains a critical challenge. Existing benchmarks predominantly rely on end-to-end evaluation, obscuring critical intermediate hallucinations, such as flawed planning, that accumulate throughout the research trajectory. To bridge this gap, we propose a shift from outcome-based to process-aware evaluation by auditing the full research trajectory. We introduce the PIES Taxonomy to categorize hallucinations along functional components (Planning vs. Summarization) and error properties (Explicit vs. Implicit). We instantiate this taxonomy into a fine-grained evaluation framework that decomposes the trajectory to rigorously quantify these hallucinations. Leveraging this framework to isolate 100 distinctively hallucination-prone tasks including adversarial scenarios, we curate DeepHalluBench. Experiments on six state-of-theart DRAs reveal that no system achieves robust reliability. Furthermore, our diagnostic analysis traces the etiology of these failures to systemic deficits, specifically hallucination propagation and cognitive biases, providing foundational insights to guide future architectural optimization. Data and code are available at https://github.com/yuhao-zhan/DeepHalluBench.
- Abstract(参考訳): 深層研究エージェント(DRA)の故障メカニズムの診断は依然として重要な課題である。
既存のベンチマークは主にエンド・ツー・エンドの評価に依存しており、研究軌道全体に蓄積する欠陥計画のような重要な中間幻覚を隠蔽している。
このギャップを埋めるために、全研究軌跡を監査することで、結果ベースからプロセス認識評価への移行を提案する。
PIES分類を導入し,機能成分(プラニング対サムマライゼーション)とエラー特性(エクスプリシット対インプリシット)に沿って幻覚を分類する。
我々はこの分類を、これらの幻覚を厳格に定量化するための軌道を分解するきめ細かい評価フレームワークにインスタンス化する。
この枠組みを利用して、敵対的シナリオを含む幻覚に起因したタスクを100個分離し、DeepHalluBenchをキュレートする。
6つの最先端のDRAの実験により、システムは堅牢な信頼性を達成できないことが明らかになった。
さらに, 診断分析では, これらの失敗の根源はシステム的欠陥, 特に幻覚伝播と認知バイアスであり, 将来のアーキテクチャ最適化を導くための基礎的な洞察を与えている。
データとコードはhttps://github.com/yuhao-zhan/DeepHalluBench.comで入手できる。
関連論文リスト
- DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。
隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。
本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文 参考訳(メタデータ) (2025-07-22T11:44:26Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Why and How LLMs Hallucinate: Connecting the Dots with Subsequence Associations [82.42811602081692]
本稿では,幻覚を体系的に追跡・理解するサブシーケンス・アソシエーション・フレームワークを提案する。
主要な洞察は、支配的な幻覚協会が忠実なものを上回るときに生じる幻覚である。
ランダムな入力コンテキストにおける幻覚の確率を解析することにより因果列を同定するトレースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T06:34:45Z) - HalluEntity: Benchmarking and Understanding Entity-Level Hallucination Detection [16.27352940098609]
本稿では,エンティティレベルで幻覚を注釈する新たなデータセットであるHaluEntityを提案する。
このデータセットに基づいて、17の近代LCMにおける不確実性に基づく幻覚検出手法を評価する。
実験の結果,個々のトークン確率に着目した不確実性推定手法は幻覚を過度に予測する傾向があることがわかった。
論文 参考訳(メタデータ) (2025-02-17T16:01:41Z) - Hallucination Detection: A Probabilistic Framework Using Embeddings Distance Analysis [2.089191490381739]
本稿では,幻覚を推論するための数学的に健全な方法論を導入し,それを利用して幻覚を検出するツールを構築する。
我々の知る限りでは、幻覚的内容が正しい内容に関して構造的な違いを持つことを示すのが最初である。
これらの構造的差異を利用して幻覚応答を検出するツールを開発し、システムパラメータの特定の構成に対して66%の精度を達成する。
論文 参考訳(メタデータ) (2025-02-10T09:44:13Z) - Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
我々は2万以上の実世界のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。
関係幻覚を体系的に定義し、知覚的視点と認知的視点を統合するとともに、Visual Genomeのシーングラフデータセットを用いて関係ベースのコーパスを構築する。
本稿では,Reefknotを含む3つのデータセットに対して,幻覚率を平均9.75%削減する信頼性に基づく新たな緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。