論文の概要: HEAL: An Empirical Study on Hallucinations in Embodied Agents Driven by Large Language Models
- arxiv url: http://arxiv.org/abs/2506.15065v1
- Date: Wed, 18 Jun 2025 02:13:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.520508
- Title: HEAL: An Empirical Study on Hallucinations in Embodied Agents Driven by Large Language Models
- Title(参考訳): HEAL:大規模言語モデルによるエンボディードエージェントの幻覚に関する実証的研究
- Authors: Trishna Chakraborty, Udita Ghosh, Xiaopan Zhang, Fahim Faisal Niloy, Yue Dong, Jiachen Li, Amit K. Roy-Chowdhury, Chengyu Song,
- Abstract要約: 本研究では,大規模な言語モデルにおいて,シーン・タスクの不整合下での長時間の作業を行う幻覚に関する最初の体系的研究について述べる。
私たちのゴールは、幻覚の発生範囲、どのような不整合が引き起こされるか、現在のモデルがどのように反応するかを理解することです。
- 参考スコア(独自算出の注目度): 30.596530112268848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly being adopted as the cognitive core of embodied agents. However, inherited hallucinations, which stem from failures to ground user instructions in the observed physical environment, can lead to navigation errors, such as searching for a refrigerator that does not exist. In this paper, we present the first systematic study of hallucinations in LLM-based embodied agents performing long-horizon tasks under scene-task inconsistencies. Our goal is to understand to what extent hallucinations occur, what types of inconsistencies trigger them, and how current models respond. To achieve these goals, we construct a hallucination probing set by building on an existing benchmark, capable of inducing hallucination rates up to 40x higher than base prompts. Evaluating 12 models across two simulation environments, we find that while models exhibit reasoning, they fail to resolve scene-task inconsistencies-highlighting fundamental limitations in handling infeasible tasks. We also provide actionable insights on ideal model behavior for each scenario, offering guidance for developing more robust and reliable planning strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、エンボディエージェントの認知コアとしてますます採用されている。
しかし、継承された幻覚は、観測された物理的環境においてユーザーの指示を下すのに失敗することに由来するもので、存在しない冷蔵庫を探すなどのナビゲーションエラーを引き起こす可能性がある。
本稿では,LLMをベースとしたエンボディエージェントにおいて,シーン・タスクの不整合下での長時間の作業を行う幻覚に関する最初の系統的研究について述べる。
私たちのゴールは、幻覚の発生範囲、どのような不整合が引き起こされるか、現在のモデルがどのように反応するかを理解することです。
これらの目標を達成するために,既存のベンチマーク上に構築した幻覚探索セットを構築し,ベースプロンプトよりも最大40倍高い幻覚率を誘導する。
2つのシミュレーション環境で12のモデルを評価すると、モデルが推論を示す一方で、シーンタスクの不整合の解決に失敗し、実行不可能なタスクの処理における基本的な制限が強調される。
また、シナリオごとに理想的なモデル行動に関する実用的な洞察を提供し、より堅牢で信頼性の高い計画戦略を開発するためのガイダンスを提供します。
関連論文リスト
- MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。