論文の概要: Watch Closely: Mitigating Object Hallucinations in Large Vision-Language Models with Disentangled Decoding
- arxiv url: http://arxiv.org/abs/2512.19070v1
- Date: Mon, 22 Dec 2025 06:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.640186
- Title: Watch Closely: Mitigating Object Hallucinations in Large Vision-Language Models with Disentangled Decoding
- Title(参考訳): 物体の幻覚を遠絡復号化した大規模視覚言語モデルで再現する
- Authors: Ruiqi Ma, Yu Yan, Chunhong Zhang, Minghao Yin, XinChao Liu, Zhihong Jin, Zheng Hu,
- Abstract要約: LVLM(Large Vision-Language Models)は、視覚と言語の間のギャップを埋めるモデルである。
これらのモデルは、特定のオブジェクトを正確に識別することができないことが多く、流動的に見えるが視覚的内容に対応しないテキスト生成につながる。
本稿では,訓練を必要としないHalucination Disentangled Decoding(HDD)手法を提案する。
- 参考スコア(独自算出の注目度): 22.560247372346435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) bridge the gap between visual and linguistic modalities, demonstrating strong potential across a variety of domains. However, despite significant progress, LVLMs still suffer from severe hallucination issues in object recognition tasks. These models often fail to accurately identify certain objects, leading to text generation that appears fluent but does not correspond to the visual content, which can have serious consequences in real-world applications. Recently, several methods have been proposed to alleviate LVLM hallucinations, but most focus solely on reducing hallucinations in the language modality. To mitigate hallucinations in both the language and visual modalities, we introduce Hallucination Disentangled Decoding (HDD) method that requires no training. HDD enhances the original image by segmenting it and selecting images that augment the original, while also utilizing a blank image to eliminate language prior hallucinations in both the original and segmented images. This design not only reduces the model's dependence on language priors but also enhances its visual performance. (Code: https://github.com/rickeyhhh/Hallucination-Disentangled-Decoding)
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚と言語の間のギャップを埋め、様々な領域において強力なポテンシャルを示す。
しかし、大きな進歩にもかかわらず、LVLMはオブジェクト認識タスクにおいて深刻な幻覚に悩まされている。
これらのモデルは、特定のオブジェクトを正確に識別することができず、流動的に見えるが、現実のアプリケーションで深刻な結果をもたらす可能性のあるビジュアルコンテンツに対応しないテキスト生成につながることが多い。
近年,LVLMの幻覚を緩和する手法がいくつか提案されている。
言語と視覚的モダリティの両方において幻覚を緩和するために,訓練を必要としないHalucination Disentangled Decoding(HDD)法を提案する。
HDDは、原画像のセグメント化と、原画像を増補する画像の選択による原画像の強化に加えて、原画像と分節画像の両方における言語先行幻覚を排除するために空白画像を利用する。
この設計は、モデルが言語への依存を減らすだけでなく、その視覚的パフォーマンスも向上させる。
(コード:https://github.com/rickeyhhh/Hallucination-Disentangled-Decoding)
関連論文リスト
- VEGAS: Mitigating Hallucinations in Large Vision-Language Models via Vision-Encoder Attention Guided Adaptive Steering [5.541436522468184]
大規模視覚言語モデル (LVLM) は言語学的に流動的であるが、視覚的証拠とは矛盾する出力を生成する。
その結果、LVLMは、最終的な視覚アテンションマップがキーイメージオブジェクトに集中できない場合、幻覚を起こす傾向にあることがわかった。
VEGASは,視覚エンコーダの注意マップを言語モデルの中間層に統合し,キーイメージオブジェクトに集中できないトークンを適応的にステアリングする手法である。
論文 参考訳(メタデータ) (2025-12-12T23:33:50Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において顕著な機能を示す。
彼らはしばしば、幻覚として知られる視覚的内容が正確に反映されていないように思われる応答を生成する。
近年のアプローチでは、推論段階における復号化戦略を調整することで幻覚を緩和するための訓練不要な手法が導入されている。
textbfVisutextbfal textbfLayer Fustextbfion textbfD
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。
これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。
本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文 参考訳(メタデータ) (2024-09-30T15:52:05Z) - Mitigating Multilingual Hallucination in Large Vision-Language Models [35.75851356840673]
大規模視覚言語モデル(LVLM)のための2段階多言語幻覚除去(MHR)フレームワークを提案する。
多言語リソースの複雑な手動アノテーションに頼る代わりに,新しい言語間アライメント手法を提案する。
当社のフレームワークは,13言語で平均19.0%の精度向上を実現しています。
論文 参考訳(メタデータ) (2024-08-01T13:34:35Z) - Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? [53.89380284760555]
大型視覚言語モデル(LVLM)は、画像に見つからない概念に言及するキャプションを生成する。
これらの幻覚は、LVLMの信頼性を損なうものであり、ユビキタス採用の主な障害であることは間違いない。
最近の研究は、画像領域やオブジェクトをテキストスパンに明示的にアライメントする、接地目的の追加は、LVLM幻覚の量を減らすことを示唆している。
論文 参考訳(メタデータ) (2024-06-20T16:56:11Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。