論文の概要: MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them
- arxiv url: http://arxiv.org/abs/2507.21017v1
- Date: Mon, 28 Jul 2025 17:38:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.230391
- Title: MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them
- Title(参考訳): MIRAGE-Bench: LLMエージェントは幻覚的で、どこを見つけるべきか
- Authors: Weichen Zhang, Yiyou Sun, Pohao Huang, Jiayue Pu, Heyue Lin, Dawn Song,
- Abstract要約: 幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。
MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
- 参考スコア(独自算出の注目度): 52.764019220214344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations pose critical risks for large language model (LLM)-based agents, often manifesting as hallucinative actions resulting from fabricated or misinterpreted information within the cognitive context. While recent studies have exposed such failures, existing evaluations remain fragmented and lack a principled testbed. In this paper, we present MIRAGE-Bench--Measuring Illusions in Risky AGEnt settings--the first unified benchmark for eliciting and evaluating hallucinations in interactive LLM-agent scenarios. We begin by introducing a three-part taxonomy to address agentic hallucinations: actions that are unfaithful to (i) task instructions, (ii) execution history, or (iii) environment observations. To analyze, we first elicit such failures by performing a systematic audit of existing agent benchmarks, then synthesize test cases using a snapshot strategy that isolates decision points in deterministic and reproducible manners. To evaluate hallucination behaviors, we adopt a fine-grained-level LLM-as-a-Judge paradigm with tailored risk-aware prompts, enabling scalable, high-fidelity assessment of agent actions without enumerating full action spaces. MIRAGE-Bench provides actionable insights on failure modes of LLM agents and lays the groundwork for principled progress in mitigating hallucinations in interactive environments.
- Abstract(参考訳): 幻覚は、大きな言語モデル(LLM)をベースとしたエージェントにとって重大なリスクとなり、しばしば認知的文脈内での偽情報や誤解釈から生じる幻覚的行動として表される。
最近の研究はそのような失敗を明らかにしているが、既存の評価は断片化され、原則化されたテストベッドが欠如している。
本稿では,MIRAGE-Bench-Measuring Illusions in Risky AGEnt settingsについて述べる。
まず、エージェントの幻覚に対処するための3つの分類を導入します。
(i)タスク命令
(二)実行履歴、又は
(三)環境観測。
まず、既存のエージェントベンチマークの系統的な監査を行い、決定点を決定論的かつ再現可能な方法で分離するスナップショット戦略を用いて、テストケースを合成する。
幻覚行動を評価するために,リスク対応プロンプトを調整した粒度の高いLDM-as-a-Judgeパラダイムを採用し,フルアクション空間を列挙することなくエージェントアクションのスケーラブルで高精度な評価を可能にする。
MIRAGE-Bench は LLM エージェントの障害モードに関する実用的な洞察を提供し、対話型環境における幻覚を緩和する原理的な進歩の基礎となる。
関連論文リスト
- Towards Mitigation of Hallucination for LLM-empowered Agents: Progressive Generalization Bound Exploration and Watchdog Monitor [18.9616029343245]
大型言語モデル(LLM)が生成する幻覚は、知的エージェントの信頼性を損なう。
HalMitは、LCMを動力とするエージェントの一般化境界をモデル化する、新しいブラックボックスウォッチドッグフレームワークである。
論文 参考訳(メタデータ) (2025-07-21T09:08:58Z) - HEAL: An Empirical Study on Hallucinations in Embodied Agents Driven by Large Language Models [30.596530112268848]
本研究では,大規模な言語モデルにおいて,シーン・タスクの不整合下での長時間の作業を行う幻覚に関する最初の体系的研究について述べる。
私たちのゴールは、幻覚の発生範囲、どのような不整合が引き起こされるか、現在のモデルがどのように反応するかを理解することです。
論文 参考訳(メタデータ) (2025-06-18T02:13:41Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - INSIDE: LLMs' Internal States Retain the Power of Hallucination Detection [39.52923659121416]
本稿では,textbfinternal textbfStates内に保持される密接な意味情報について,HoluctextbfInation textbfDEtectionについて検討する。
応答の自己整合性をよりよく評価するために、単純で効果的な textbfEigenScore メトリクスが提案されている。
内部状態における極端なアクティベーションを阻害するために,テスト時間特徴クリッピング手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T06:23:12Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。