論文の概要: HII-DPO: Eliminate Hallucination via Accurate Hallucination-Inducing Counterfactual Images
- arxiv url: http://arxiv.org/abs/2602.10425v1
- Date: Wed, 11 Feb 2026 02:11:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.382854
- Title: HII-DPO: Eliminate Hallucination via Accurate Hallucination-Inducing Counterfactual Images
- Title(参考訳): HII-DPO:正確な幻覚誘導による幻覚の除去
- Authors: Yilin Yang, Zhenghui Guo, Yuke Wang, Omprakash Gnawali, Sheng Di, Chengming Zhang,
- Abstract要約: VLM(Large Vision-Language Models)は様々なマルチモーダルタスクにおいて顕著な成功を収めているが、固有の言語バイアスに根ざした幻覚に弱いままである。
本研究では,ハロシン化誘導画像(HII)を正確に合成する新しいパイプラインを設計する。
合成HIIを用いて一貫したシーン条件の幻覚パターンを明らかにする。
提案手法は, 標準的な幻覚ベンチマークにおいて, 最先端の38%の改善を実現している。
- 参考スコア(独自算出の注目度): 9.716231984097313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (VLMs) have achieved remarkable success across diverse multimodal tasks but remain vulnerable to hallucinations rooted in inherent language bias. Despite recent progress, existing hallucination mitigation methods often overlook the underlying hallucination patterns driven by language bias. In this work, we design a novel pipeline to accurately synthesize Hallucination-Inducing Images (HIIs). Using synthesized HIIs, we reveal a consistent scene-conditioned hallucination pattern: models tend to mention objects that are highly typical of the scene even when visual evidence is removed. To quantify the susceptibility of VLMs to this hallucination pattern, we establish the Masked-Object-Hallucination (MOH) benchmark to rigorously evaluate existing state-of-the-art alignment frameworks. Finally, we leverage HIIs to construct high-quality preference datasets for fine-grained alignment. Experimental results demonstrate that our approach effectively mitigates hallucinations while preserving general model capabilities. Specifically, our method achieves up to a 38% improvement over the current state-of-the-art on standard hallucination benchmarks.
- Abstract(参考訳): VLM(Large Vision-Language Models)は様々なマルチモーダルタスクにおいて顕著な成功を収めているが、固有の言語バイアスに根ざした幻覚に弱いままである。
近年の進歩にもかかわらず、既存の幻覚緩和法はしばしば言語バイアスによって引き起こされる幻覚のパターンを見落としている。
本研究では,ハロシン化誘導画像(HII)を正確に合成する新しいパイプラインを設計する。
モデルでは,視覚的エビデンスを取り除いた場合でも,シーンの非常に典型的な物体に言及する傾向にある。
この幻覚パターンに対するVLMの感受性を定量化するために,既存の最先端アライメントフレームワークを厳格に評価するMasked-Object-Hallucination(MOH)ベンチマークを構築した。
最後に、HIIを活用して、きめ細かなアライメントのための高品質な嗜好データセットを構築する。
実験により,本手法は一般モデル機能を維持しながら幻覚を効果的に緩和することを示した。
具体的には,従来の幻覚ベンチマークよりも最大で38%改善した。
関連論文リスト
- Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Trust Me, I'm Wrong: LLMs Hallucinate with Certainty Despite Knowing the Answer [51.7407540261676]
本研究では,モデルが常に正しい解答を行うことのできる幻覚の別のタイプについて検討するが,一見自明な摂動は,高い確実性で幻覚応答を生じさせる。
この現象は特に医学や法学などの高度な領域において、モデルの確実性はしばしば信頼性の代用として使用される。
CHOKEの例は、プロンプト間で一貫性があり、異なるモデルやデータセットで発生し、他の幻覚と根本的に異なることを示す。
論文 参考訳(メタデータ) (2025-02-18T15:46:31Z) - Valuable Hallucinations: Realizable Non-realistic Propositions [2.451326684641447]
本稿では,大規模言語モデル(LLM)における価値幻覚の形式的定義について紹介する。
特定の種類の幻覚が特定の文脈で提供できる潜在的な価値に焦点を当てる。
本稿では,Qwen2.5モデルとHaluQAデータセットを用いて,幻覚の制御と最適化を促進させるReActを用いて実験を行った。
論文 参考訳(メタデータ) (2025-02-16T12:59:11Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models [35.45859414670449]
我々は,新しいカテゴリーであるイベント幻覚(Event Hallucination)を特徴とする,幻覚の洗練された分類を導入した。
次に,多種多様な幻覚からなる微粒な幻覚データの生成とフィルタリングに高度LLMを利用する。
提案するベンチマークでは,広帯域の幻覚に対処するLVLMの能力を顕著に評価している。
論文 参考訳(メタデータ) (2024-02-24T05:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。