論文の概要: Review of Hallucination Understanding in Large Language and Vision Models
- arxiv url: http://arxiv.org/abs/2510.00034v1
- Date: Fri, 26 Sep 2025 09:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.116904
- Title: Review of Hallucination Understanding in Large Language and Vision Models
- Title(参考訳): 大規模言語と視覚モデルにおける幻覚理解の見直し
- Authors: Zhengyi Ho, Siyuan Liang, Dacheng Tao,
- Abstract要約: 本稿では,多様なアプリケーションにまたがる画像とテキストの幻覚を特徴付けるフレームワークを提案する。
我々の調査によると、幻覚はデータ分布や遺伝バイアスの予測可能なパターンから生じることが多い。
この調査は、現実世界の生成AIシステムにおける幻覚に対するより堅牢で効果的なソリューションを開発する基盤を提供する。
- 参考スコア(独自算出の注目度): 65.29139004945712
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The widespread adoption of large language and vision models in real-world applications has made urgent the need to address hallucinations -- instances where models produce incorrect or nonsensical outputs. These errors can propagate misinformation during deployment, leading to both financial and operational harm. Although much research has been devoted to mitigating hallucinations, our understanding of it is still incomplete and fragmented. Without a coherent understanding of hallucinations, proposed solutions risk mitigating surface symptoms rather than underlying causes, limiting their effectiveness and generalizability in deployment. To tackle this gap, we first present a unified, multi-level framework for characterizing both image and text hallucinations across diverse applications, aiming to reduce conceptual fragmentation. We then link these hallucinations to specific mechanisms within a model's lifecycle, using a task-modality interleaved approach to promote a more integrated understanding. Our investigations reveal that hallucinations often stem from predictable patterns in data distributions and inherited biases. By deepening our understanding, this survey provides a foundation for developing more robust and effective solutions to hallucinations in real-world generative AI systems.
- Abstract(参考訳): 大規模言語とビジョンモデルが現実世界のアプリケーションで広く採用されているため、モデルが誤ったあるいは非意味なアウトプットを生成する場合の幻覚に対処する必要がある。
これらのエラーは、デプロイ中に誤った情報を伝達し、金銭的および運用上の損なわれる可能性がある。
幻覚の緩和に多くの研究が費やされているが、我々の理解はまだ不完全で断片化されている。
幻覚のコヒーレントな理解がなければ、提案された解決策は、根本原因よりも表面症状を緩和し、その効果と展開の一般化性を制限する。
このギャップに対処するために、まず、画像とテキストの幻覚を多種多様なアプリケーションで特徴付ける統一されたマルチレベルフレームワークを提案し、概念的断片化を減らすことを目的とした。
次に、これらの幻覚をモデルライフサイクル内の特定のメカニズムにリンクし、タスク・モダリティ・インターリーブドアプローチを用いてより統合された理解を促進する。
我々の調査によると、幻覚はデータ分布や遺伝バイアスの予測可能なパターンから生じることが多い。
私たちの理解を深めることで、この調査は、現実の生成AIシステムにおける幻覚に対するより堅牢で効果的なソリューションを開発するための基盤を提供する。
関連論文リスト
- Two Causes, Not One: Rethinking Omission and Fabrication Hallucinations in MLLMs [31.601057368065877]
既存の手法は、省略と製造幻覚が共通の原因を共有するという欠点のある仮定に基づいており、しばしば省略を減らし、より多くの製造を誘発する。
本研究は,視覚的特徴を言語表現にマッピングする場合に,排他的幻覚が不十分な自信から生じることを示すことによって,この見解を覆すものである。
本研究では,物体の存在や不在を視覚的証拠がどのように推測するかを明らかにする概念的枠組みである視覚意味的注意力場を提案する。
論文 参考訳(メタデータ) (2025-08-30T05:47:41Z) - HEAL: An Empirical Study on Hallucinations in Embodied Agents Driven by Large Language Models [30.596530112268848]
本研究では,大規模な言語モデルにおいて,シーン・タスクの不整合下での長時間の作業を行う幻覚に関する最初の体系的研究について述べる。
私たちのゴールは、幻覚の発生範囲、どのような不整合が引き起こされるか、現在のモデルがどのように反応するかを理解することです。
論文 参考訳(メタデータ) (2025-06-18T02:13:41Z) - KSHSeek: Data-Driven Approaches to Mitigating and Detecting Knowledge-Shortcut Hallucinations in Generative Models [17.435794516702256]
大規模言語モデル(LLM)は自然言語処理(NLP)の開発に大きく進歩している。
モデル幻覚は、複雑な原因のため、自然言語生成(NLG)タスクにおいて依然として大きな課題である。
この研究は、生成モデルにおける特定の幻覚の問題を緩和し、実世界のアプリケーションにおけるその堅牢性と信頼性を高めるための新しいパラダイムを導入する。
論文 参考訳(メタデータ) (2025-03-25T09:18:27Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。