論文の概要: Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models
- arxiv url: http://arxiv.org/abs/2603.07619v1
- Date: Sun, 08 Mar 2026 13:07:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.984794
- Title: Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models
- Title(参考訳): 幻覚の原因を過度に考える - ビジョン言語モデルにおける共同創設者の伝播の追跡
- Authors: Abin Shoby, Ta Duc Huy, Tuan Dung Nguyen, Minh Khoi Ho, Qi Chen, Anton van den Hengel, Phi Le Nguyen, Johan W. Verjans, Vu Minh Hieu Phan,
- Abstract要約: 幻覚検出の鍵は、最終的な出力ではなく、モデルの思考プロセス内にあることを示す。
モデルが楽しむ仮説の数と、これらの仮説がどれほど不安定であるかを測定するために、オーバーシンキングスコアを導入します。
このスコアは幻覚の検出を大幅に改善し、MSCOCOでは78.9% F1、AMBERでは71.58%である。
- 参考スコア(独自算出の注目度): 33.56981117189365
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision Language models (VLMs) often hallucinate non-existent objects. Detecting hallucination is analogous to detecting deception: a single final statement is insufficient, one must examine the underlying reasoning process. Yet existing detectors rely mostly on final-layer signals. Attention-based methods assume hallucinated tokens exhibit low attention, while entropy-based ones use final-step uncertainty. Our analysis reveals the opposite: hallucinated objects can exhibit peaked attention due to contextual priors; and models often express high confidence because intermediate layers have already converged to an incorrect hypothesis. We show that the key to hallucination detection lies within the model's thought process, not its final output. By probing decoder layers, we uncover a previously overlooked behavior, overthinking: models repeatedly revise object hypotheses across layers before committing to an incorrect answer. Once the model latches onto a confounded hypothesis, it can propagate through subsequent layers, ultimately causing hallucination. To capture this behavior, we introduce the Overthinking Score, a metric to measure how many competing hypotheses the model entertains and how unstable these hypotheses are across layers. This score significantly improves hallucination detection: 78.9% F1 on MSCOCO and 71.58% on AMBER.
- Abstract(参考訳): 視覚言語モデル(VLM)は、しばしば存在しないオブジェクトを幻覚させる。
幻覚の検出は偽装の検出と類似しており、単一の最終文が不十分であり、根底にある推論過程を調べる必要がある。
しかし、既存の検出器は主に最終層信号に依存している。
注意に基づく方法では、幻覚トークンは低い注意力を示すが、エントロピーベースのトークンは最終段階の不確実性を使用する。
また,中間層が既に誤った仮説に収束しているため,モデルはしばしば高い信頼度を示す。
幻覚検出の鍵は、最終的な出力ではなく、モデルの思考プロセス内にあることを示す。
デコーダのレイヤを探索することで、以前見過ごされた振る舞いを発見し、見過ごされる: モデルが間違った答えをコミットする前に、繰り返し、レイヤ間でオブジェクト仮説を修正します。
モデルが確立された仮説にたどり着くと、後続の層を通して伝播し、最終的に幻覚を引き起こす。
この振る舞いを捉えるために、モデルが楽しむ競合する仮説の数と、これらの仮説が層を越えてどれだけ不安定であるかを測定する指標であるOverthinking Scoreを導入する。
このスコアは幻覚の検出を大幅に改善し、MSCOCOでは78.9% F1、AMBERでは71.58%である。
関連論文リスト
- Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet [93.00109641811788]
テストタイムスケーリングは、モデルが長い推論チェーンを生成することによって、推論時間計算を増加させる。
本手法は,知識集約型タスクにおいて,高い事実的精度と低幻覚率が不可欠である場合において,まだ有効ではないことを示す。
以上の結果から,テスト時間計算の増大は必ずしも精度の向上には至らず,多くの場合において幻覚の増大につながることが示唆された。
論文 参考訳(メタデータ) (2025-09-08T16:28:25Z) - Mitigating Behavioral Hallucination in Multimodal Large Language Models for Sequential Images [6.48620624181578]
SHE(Sequence Hallucination Eradication)は,幻覚を検知し緩和する軽量なフレームワークである。
また,行動幻覚の重症度を定量化する新しい指標(BEACH)を提案する。
論文 参考訳(メタデータ) (2025-06-08T15:08:52Z) - Auditing Meta-Cognitive Hallucinations in Reasoning Large Language Models [12.747507415841168]
本研究では,制約付き知識領域における幻覚の因果関係について,チェーン・オブ・ソート(Chain-of-Thought)の軌跡を監査することによって検討する。
我々の分析によると、長いCoT設定では、RLLMは欠陥のある反射的推論を通じてバイアスやエラーを反復的に補強することができる。
驚いたことに、幻覚の原因の直接的な介入でさえも、連鎖が「連鎖不規則性」を示すため、その効果を覆すことができないことが多い。
論文 参考訳(メタデータ) (2025-05-19T14:11:09Z) - Trust Me, I'm Wrong: LLMs Hallucinate with Certainty Despite Knowing the Answer [51.7407540261676]
本研究では,モデルが常に正しい解答を行うことのできる幻覚の別のタイプについて検討するが,一見自明な摂動は,高い確実性で幻覚応答を生じさせる。
この現象は特に医学や法学などの高度な領域において、モデルの確実性はしばしば信頼性の代用として使用される。
CHOKEの例は、プロンプト間で一貫性があり、異なるモデルやデータセットで発生し、他の幻覚と根本的に異なることを示す。
論文 参考訳(メタデータ) (2025-02-18T15:46:31Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - On Early Detection of Hallucinations in Factual Question Answering [4.76359068115052]
幻覚は依然として ユーザーの信頼を得るための大きな障害です
本研究では、モデル生成に関連するアーティファクトが、生成が幻覚を含むことを示すヒントを提供することができるかどうかを探索する。
以上の結果から,これらのアーティファクトの分布は,ハロゲン化世代と非ハロゲン化世代の違いが示唆された。
論文 参考訳(メタデータ) (2023-12-19T14:35:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。