論文の概要: Toward More Reliable Artificial Intelligence: Reducing Hallucinations in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.07564v1
- Date: Mon, 08 Dec 2025 13:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.912034
- Title: Toward More Reliable Artificial Intelligence: Reducing Hallucinations in Vision-Language Models
- Title(参考訳): より信頼性の高い人工知能を目指して:視覚・言語モデルにおける幻覚の低減
- Authors: Kassoum Sanogo, Renzo Ardiccioni,
- Abstract要約: 視覚言語モデル(VLM)は、しばしば幻覚的コンテンツを生成するが、画像の内容に関する誤った主張である。
本稿では,不確実性誘導による視覚的再認識によってVLMの応答を反復的に改善することのできる,トレーニング不要な自己補正フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) frequently generate hallucinated content plausible but incorrect claims about image content. We propose a training-free self-correction framework enabling VLMs to iteratively refine responses through uncertainty-guided visual re-attention. Our method combines multidimensional uncertainty quantification (token entropy, attention dispersion, semantic consistency, claim confidence) with attention-guided cropping of under-explored regions. Operating entirely with frozen, pretrained VLMs, our framework requires no gradient updates. We validate our approach on the POPE and MMHAL BENCH benchmarks using the Qwen2.5-VL-7B [23] architecture. Experimental results demonstrate that our method reduces hallucination rates by 9.8 percentage points compared to the baseline, while improving object existence accuracy by 4.7 points on adversarial splits. Furthermore, qualitative analysis confirms that uncertainty-guided re-attention successfully grounds corrections in visual evidence where standard decoding fails. We validate our approach on Qwen2.5-VL-7B [23], with plans to extend validation across diverse architectures in future versions. We release our code and methodology to facilitate future research in trustworthy multimodal systems.
- Abstract(参考訳): 視覚言語モデル(VLM)は、しばしば幻覚的コンテンツを生成するが、画像の内容に関する誤った主張である。
本稿では,不確実性誘導による視覚的再認識によってVLMの応答を反復的に改善することのできる,トレーニング不要な自己補正フレームワークを提案する。
提案手法は,多次元不確実性定量化(トケンエントロピー,注意分散,セマンティック一貫性,クレーム信頼度)と,未探索領域の注意誘導収穫とを組み合わせる。
フリーズされた事前訓練されたVLMで完全に動作するため、我々のフレームワークは勾配更新を必要としない。
我々はQwen2.5-VL-7B[23]アーキテクチャを用いて,POPEおよびMMHAL BENCHベンチマークに対するアプローチを検証する。
実験の結果,幻覚率を基準値と比較して9.8ポイント削減し,対向分割では4.7ポイント向上した。
さらに、定性的分析により、不確実性誘導による再認識が、標準復号が失敗する視覚的証拠の修正に成功していることを確認した。
我々はQwen2.5-VL-7B[23]に対するアプローチを検証する。
我々は,信頼に値するマルチモーダルシステムの今後の研究を促進するために,コードと方法論をリリースする。
関連論文リスト
- Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文 参考訳(メタデータ) (2025-10-20T09:58:03Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models [24.363156120809546]
劣化文書理解におけるOCR幻覚評価のための最初のベンチマークであるKIE-HVQAを提案する。
このデータセットには、IDカードと請求書にまたがるテストサンプルが含まれており、OCR信頼性のための実世界の劣化をシミュレートしている。
Qwen2.5-VL 実験により,GPT-4o に対して 7B-パラメータモデルでは幻覚のない精度が 22% 向上していることが示された。
論文 参考訳(メタデータ) (2025-06-25T06:44:07Z) - To Trust Or Not To Trust Your Vision-Language Model's Prediction [32.26134619728882]
我々は,VLMの予測をいつ信頼できるかを推定する課題に対処する,トレーニング不要なフレームワークTrustVLMを紹介した。
観測されたVLMのモダリティギャップに触発されて,この空間を利用して誤分類検出を改善する新しい信頼度スコアリング関数を提案する。
4つのアーキテクチャと2つのVLMを使用して、17の多様なデータセットにまたがるアプローチを厳格に評価し、最先端のパフォーマンスを実証します。
論文 参考訳(メタデータ) (2025-05-29T17:59:01Z) - Post-hoc Probabilistic Vision-Language Models [54.05237186168399]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。
追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。
この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文 参考訳(メタデータ) (2024-12-08T18:16:13Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。