論文の概要: Towards Mitigating Hallucinations in Large Vision-Language Models by Refining Textual Embeddings
- arxiv url: http://arxiv.org/abs/2511.05017v1
- Date: Fri, 07 Nov 2025 06:39:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.692636
- Title: Towards Mitigating Hallucinations in Large Vision-Language Models by Refining Textual Embeddings
- Title(参考訳): テクスチャ埋め込みを改良した大規模視覚言語モデルにおける幻覚の緩和に向けて
- Authors: Aakriti Agrawal, Gouthaman KV, Rohith Aralikatti, Gauri Jagatap, Jiaxin Yuan, Vijay Kamarshi, Andrea Fanelli, Furong Huang,
- Abstract要約: 我々は,LVLMアーキテクチャにおける言語モダリティに対する固有のバイアスを同定する。
平均的な視覚的特徴を統合することでテキスト埋め込みを洗練させる手法を提案する。
提案手法は視覚的グラウンド化を実証的に改善し,確立されたベンチマークに対する幻覚を著しく低減する。
- 参考スコア(独自算出の注目度): 39.83857755243316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we identify an inherent bias in prevailing LVLM architectures toward the language modality, largely resulting from the common practice of simply appending visual embeddings to the input text sequence. To address this, we propose a simple yet effective method that refines textual embeddings by integrating average-pooled visual features. Our approach demonstrably improves visual grounding and significantly reduces hallucinations on established benchmarks. While average pooling offers a straightforward, robust, and efficient means of incorporating visual information, we believe that more sophisticated fusion methods could further enhance visual grounding and cross-modal alignment. Given that the primary focus of this work is to highlight the modality imbalance and its impact on hallucinations -- and to show that refining textual embeddings with visual information mitigates this issue -- we leave exploration of advanced fusion strategies for future work.
- Abstract(参考訳): 本研究は,LVLMアーキテクチャにおける言語モダリティに対する固有のバイアスを同定する。
そこで本研究では,平均的な視覚的特徴を統合することで,テキストの埋め込みを改良する,シンプルで効果的な手法を提案する。
提案手法は視覚的グラウンド化を実証的に改善し,確立されたベンチマークに対する幻覚を著しく低減する。
平均的なプールリングは、視覚情報を組み込むための単純で堅牢で効率的な手段を提供するが、より洗練された融合法は、視覚的な接地と横断的なアライメントをさらに強化できると考えている。
この研究の主な焦点は、モダリティの不均衡と幻覚への影響を強調すること、そして視覚情報によるテキストの埋め込みがこの問題を緩和することを示すことにある。
関連論文リスト
- Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Vision and Intention Boost Large Language Model in Long-Term Action Anticipation [39.66216219048517]
長期的な行動予測は、長期にわたる将来の行動を予測することを目的としている。
近年の研究では、大きな言語モデル(LLM)を利用して、深刻な情報損失を被るテキストベースの入力を活用している。
本研究では,視覚データのリッチなセマンティック情報を完全に活用する,新しいインテンシブ・コンディション・ビジョン・ランゲージ(ICVL)モデルを提案する。
論文 参考訳(メタデータ) (2025-05-03T06:33:54Z) - Context-aware Visual Storytelling with Visual Prefix Tuning and Contrastive Learning [2.401993998791928]
本稿では、モダリティを接続するための軽量な視覚言語マッピングネットワークを訓練するフレームワークを提案する。
視覚的関連性やストーリー情報性も向上するマルチモーダルなコントラスト目標を提案する。
論文 参考訳(メタデータ) (2024-08-12T16:15:32Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。