論文の概要: Cure or Poison? Embedding Instructions Visually Alters Hallucination in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.01678v1
- Date: Sun, 03 Aug 2025 09:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.00254
- Title: Cure or Poison? Embedding Instructions Visually Alters Hallucination in Vision-Language Models
- Title(参考訳): キュアかポゾンか?視覚・言語モデルにおける視覚的幻覚の埋め込み
- Authors: Zhaochen Wang, Yiwei Wang, Yujun Cai,
- Abstract要約: VLM(Vision-Language Models)はしばしば幻覚に悩まされる。
本稿では,画像に直接テキスト命令を埋め込むシンプルな方法であるPrompt-in-Imageを提案する。
本手法は,3つのオープンソースVLM (Qwen2.5-VL, LLaVA-1.5, InstructBLIP) で評価する。
- 参考スコア(独自算出の注目度): 12.215295420714787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) often suffer from hallucination, partly due to challenges in aligning multimodal information. We propose Prompt-in-Image, a simple method that embeds textual instructions directly into images. This removes the need for separate text inputs and forces the model to process all content through the visual channel. We evaluate this method on three popular open-source VLMs: Qwen2.5-VL, LLaVA-1.5, and InstructBLIP. The results reveal sharp differences. Prompt-in-Image improves Qwen2.5-VL's performance, increasing POPE accuracy by 4.1 percent (from 80.2 percent to 84.3 percent) and also reducing hallucination rates on MS-COCO. In contrast, LLaVA-1.5 and InstructBLIP experience a severe performance drop, with accuracy falling from around 84 percent to near-random levels. Through detailed analysis, we found that CLIP-based encoders in LLaVA and InstructBLIP exhibit excessive attention bias toward embedded text regions, disrupting visual understanding. In contrast, Qwen's vision encoder handles text-embedded images robustly. Crucially, Prompt-in-Image reduces Qwen's modality gap, enhancing cross-modal alignment by unifying information processing through a single modality.
- Abstract(参考訳): VLM(Vision-Language Models)はしばしば幻覚に悩まされる。
本稿では,画像に直接テキスト命令を埋め込むシンプルな方法であるPrompt-in-Imageを提案する。
これにより、テキスト入力を分離する必要がなくなり、モデルがビジュアルチャネルを通じてすべてのコンテンツを処理せざるを得なくなる。
本手法は,3つのオープンソースVLM (Qwen2.5-VL, LLaVA-1.5, InstructBLIP) で評価する。
その結果、大きな違いが浮かび上がっている。
Prompt-in-ImageはQwen2.5-VLの性能を改善し、POPEの精度を4.1%向上(80.2%から84.3%)し、MS-COCOの幻覚率も低下させた。
対照的に、LLaVA-1.5とInstructBLIPは、精度が約84パーセントからほぼランダムなレベルに低下する、深刻なパフォーマンス低下を経験する。
詳細な分析により,LLaVAおよびInstructBLIPにおけるCLIPベースのエンコーダは,埋め込みテキスト領域に対して過度な注意バイアスを示し,視覚的理解を損なうことがわかった。
対照的に、Qwenのビジョンエンコーダは、テキスト埋め込みイメージを頑健に処理する。
重要なことに、Prompt-in-ImageはQwenのモダリティギャップを減らし、単一のモダリティを通して情報処理を統一することで、モダリティアライメントを強化する。
関連論文リスト
- Feedback-Driven Vision-Language Alignment with Minimal Human Supervision [11.012355590697064]
SVP(Sampling-based Visual Projection)は,手作業によるテキストイメージペアや嗜好アノテーションに頼ることなく,視覚言語アライメントを向上させる新しいフレームワークである。
我々は6つの重要な領域(キャプション、参照、視覚的質問応答、マルチタスク、幻覚制御、オブジェクトリコール)にまたがるアプローチを評価した。
その結果, キャプションタスクの平均改善率は14%, オブジェクトリコールの最大12%, 幻覚の減少など, 大幅な改善が見られた。
論文 参考訳(メタデータ) (2025-01-08T15:32:12Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。
即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。
M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文 参考訳(メタデータ) (2024-03-20T22:05:18Z) - Mitigating Hallucination in Visual Language Models with Visual
Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T09:30:02Z) - PuMer: Pruning and Merging Tokens for Efficient Vision Language Models [41.81484883647005]
PuMerは、テキストインフォームされたPruningとModality-aware Merging戦略を使用して、入力画像とテキストのトークンを段階的に削減するフレームワークである。
PuMer推論はスループットを最大2倍にし、メモリフットプリントを50%以上削減し、精度を1%以下に低下させる。
論文 参考訳(メタデータ) (2023-05-27T17:16:27Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。