論文の概要: HalluShift++: Bridging Language and Vision through Internal Representation Shifts for Hierarchical Hallucinations in MLLMs
- arxiv url: http://arxiv.org/abs/2512.07687v1
- Date: Mon, 08 Dec 2025 16:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.962067
- Title: HalluShift++: Bridging Language and Vision through Internal Representation Shifts for Hierarchical Hallucinations in MLLMs
- Title(参考訳): HalluShift++:MLLMにおける階層的幻覚のための内部表現シフトによる言語とビジョンのブリッジ
- Authors: Sujoy Nath, Arkaprabha Basu, Sharanya Dasgupta, Swagatam Das,
- Abstract要約: 大規模言語モデル(MLLM)における幻覚は、モデル開発プロセスにおいてますます重要になっている。
本稿では,幻覚がMLLMの内部層力学における測定可能な不規則性として現れるという仮説を提案する。
このような修正を導入することで、textsctextscHalluShift++は、テキストベースの大規模言語モデルからの幻覚検出の有効性を広げる。
- 参考スコア(独自算出の注目度): 17.130698952440316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in vision-language understanding tasks. While these models often produce linguistically coherent output, they often suffer from hallucinations, generating descriptions that are factually inconsistent with the visual content, potentially leading to adverse consequences. Therefore, the assessment of hallucinations in MLLM has become increasingly crucial in the model development process. Contemporary methodologies predominantly depend on external LLM evaluators, which are themselves susceptible to hallucinations and may present challenges in terms of domain adaptation. In this study, we propose the hypothesis that hallucination manifests as measurable irregularities within the internal layer dynamics of MLLMs, not merely due to distributional shifts but also in the context of layer-wise analysis of specific assumptions. By incorporating such modifications, \textsc{\textsc{HalluShift++}} broadens the efficacy of hallucination detection from text-based large language models (LLMs) to encompass multimodal scenarios. Our codebase is available at https://github.com/C0mRD/HalluShift_Plus.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は視覚言語理解タスクにおいて顕著な機能を示す。
これらのモデルはしばしば言語的に一貫性のある出力を生成するが、幻覚に悩まされ、視覚的内容と実際に矛盾しない記述を生成し、潜在的に有害な結果をもたらす。
そのため,MLLMにおける幻覚の評価は,モデル開発プロセスにおいてますます重要になっている。
現代の方法論は主に外部LLM評価器に依存しており、それ自体は幻覚の影響を受けやすいものであり、ドメイン適応の観点からも課題を提示する可能性がある。
本研究では, MLLMの内部層力学における幻覚現象が, 分布変化だけでなく, 特定の仮定の層ワイズ解析の文脈においても, 測定可能な不規則性として現れるという仮説を提案する。
このような修正を取り入れることで、テキストベースの大規模言語モデル(LLM)からの幻覚検出の有効性を拡大し、マルチモーダルシナリオを包含する。
私たちのコードベースはhttps://github.com/C0mRD/HalluShift_Plus.orgで公開されています。
関連論文リスト
- MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Triggering Hallucinations in LLMs: A Quantitative Study of Prompt-Induced Hallucination in Large Language Models [0.0]
大規模言語モデル(LLM)における幻覚は、現実世界のアプリケーションにまたがる課題が増えていることを示している。
幻覚を系統的に引き起こし定量化するプロンプトベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-01T14:33:47Z) - HalluShift: Measuring Distribution Shifts towards Hallucination Detection in LLMs [14.005452985740849]
大規模言語モデル(LLM)は、最近、与えられたプロンプトに対する革新的な応答を生成できるため、広く注目を集めている。
本研究では,LLMの内部動態から幻覚が生じると仮定する。
本研究では,内部状態空間における分布変化を解析するための革新的アプローチであるHaluShiftを導入する。
論文 参考訳(メタデータ) (2025-04-13T08:35:22Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
実験により,MLLMは最終出力のオブジェクトを誤って生成するが,前層の視覚的オブジェクトを認識できることがわかった。
そこで本研究では,MLLMs DeCoの動的補正復号法を提案する。この手法は,適切な先行層を適応的に選択し,最終層に知識を比例的に統合し,出力ロジットを調整する。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - Exploring and Evaluating Hallucinations in LLM-Powered Code Generation [14.438161741833687]
LLM(Large Language Models)は、ユーザの意図から逸脱した出力を生成し、内部的不整合を示すか、事実的知識と不整合を示す。
既存の研究は主に、自然言語生成の分野における幻覚の投資に重点を置いている。
我々は,LLM生成コードのテーマ解析を行い,その内に存在する幻覚を要約し,分類する。
幻覚認識におけるLLMの性能評価のためのベンチマークであるHaluCodeを提案する。
論文 参考訳(メタデータ) (2024-04-01T07:31:45Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models [124.90671698586249]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。