論文の概要: Reducing Object Hallucination in LVLMs via Emphasizing Image-negative Tokens
- arxiv url: http://arxiv.org/abs/2605.21300v1
- Date: Wed, 20 May 2026 15:29:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.752042
- Title: Reducing Object Hallucination in LVLMs via Emphasizing Image-negative Tokens
- Title(参考訳): 画像陰性トークンの強調によるLVLMの物体幻覚の低減
- Authors: Meng Shen, Minghao Wu, Deepu Rajan,
- Abstract要約: 生成過程を調査し,テキストトークンを画像陽性,不変,負の3つのグループに分類する。
分析の結果,ほとんどのトークンは画像情報の影響を最小限に受けていることがわかった。
幻覚に対する視覚的依存に応じて異なるトークンのトレーニング重量を調整することを提案する。
- 参考スコア(独自算出の注目度): 19.11092776427327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object hallucination is a significant challenge that hinders the application of large vision-language models (LVLMs) in practice. We hypothesize that one possible origin of hallucination is the model's tendency to prioritize text generation over meaningful interaction with images. To explore this, we examine the generation process and categorize text tokens into three groups: image-positive, invariant, and negative, based on their visual dependence on input image tokens. Our analysis reveals that most generated tokens are minimally influenced by the image information. This suggests that during the model's training stage, more emphasis is placed on learning how to follow textual instructions, rather than extracting information from images. Based on this finding, we propose adjusting the training weights of different tokens depending on their visual dependence to control hallucination. Additionally, we remove a portion of the training data that potentially contains more hallucinations as a data filtering strategy. Both methods achieve a reduction in hallucination without compromising response length or introducing additional computational costs during inference. We validate our methods across three LVLM variants, demonstrating the effectiveness and general applicability.
- Abstract(参考訳): オブジェクト幻覚は、大規模視覚言語モデル(LVLM)の実践を妨げる重要な課題である。
幻覚の起源の1つは、画像との有意義な相互作用よりもテキスト生成を優先する傾向にあると仮定する。
そこで本研究では,テキストトークンの生成過程について検討し,入力画像トークンに対する視覚的依存に基づいて,画像陽性,不変,負の3つのグループに分類する。
分析の結果,ほとんどのトークンは画像情報の影響を最小限に受けていることがわかった。
これは、モデルのトレーニング段階では、画像から情報を取り出すのではなく、テキストの指示に従う方法を学ぶことに重点が置かれていることを示唆している。
そこで本研究では,視覚的依存度に応じて異なるトークンのトレーニング重量を調整することを提案する。
さらに、データフィルタリング戦略として、より幻覚を含む可能性のあるトレーニングデータの一部を削除します。
どちらの手法も、応答長を損なうことなく幻覚を減少させ、推論中に計算コストを増大させる。
提案手法を3つのLVLM変種にまたがって検証し,その有効性と汎用性を実証した。
関連論文リスト
- Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Hallucinatory Image Tokens: A Training-free EAZY Approach on Detecting and Mitigating Object Hallucinations in LVLMs [15.479587108655393]
LVLM(Large Vision-Language Models)は、まだオブジェクト幻覚の課題に直面している。
我々の研究は、画像入力源に焦点を移し、特定の画像トークンが幻覚にどのように貢献するかを調べる。
本稿では,幻覚器画像トークンをゼロにすることで,hAllucinationsを自動的に識別し,除去する新しい学習自由化手法EAZYを紹介する。
論文 参考訳(メタデータ) (2025-03-10T18:53:39Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Mitigating Hallucination in Visual Language Models with Visual
Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T09:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。