論文の概要: Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance
- arxiv url: http://arxiv.org/abs/2411.14279v1
- Date: Thu, 21 Nov 2024 16:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:28.100308
- Title: Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance
- Title(参考訳): テキストを超えて見る:マルチモーダルデュアルアテンションとソフトイメージ誘導による大規模視覚言語モデルにおける言語バイアスの低減
- Authors: Haozhe Zhao, Shuzheng Si, Liang Chen, Yichi Zhang, Maosong Sun, Mingjia Zhang, Baobao Chang,
- Abstract要約: 大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
- 参考スコア(独自算出の注目度): 67.26434607115392
- License:
- Abstract: Large vision-language models (LVLMs) have achieved impressive results in various vision-language tasks. However, despite showing promising performance, LVLMs suffer from hallucinations caused by language bias, leading to diminished focus on images and ineffective visual comprehension. We identify two primary reasons for this bias: 1. Different scales of training data between the pretraining stage of LLM and multimodal alignment stage. 2. The learned inference bias due to short-term dependency of text data. Therefore, we propose LACING, a systemic framework designed to address the language bias of LVLMs with muLtimodal duAl-attention meChanIsm (MDA) aNd soft-image Guidance (IFG). Specifically, MDA introduces a parallel dual-attention mechanism that enhances the integration of visual inputs across the model. IFG introduces a learnable soft visual prompt during training and inference to replace visual inputs, designed to compel LVLMs to prioritize text inputs. Then, IFG further proposes a novel decoding strategy using the soft visual prompt to mitigate the model's over-reliance on adjacent text inputs. Comprehensive experiments demonstrate that our method effectively debiases LVLMs from their language bias, enhancing visual comprehension and reducing hallucinations without requiring additional training resources or data. The code and model are available at [lacing-lvlm.github.io](https://lacing-lvlm.github.io).
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
しかし,LVLMは有望な性能を示したにもかかわらず,言語バイアスによる幻覚に悩まされ,画像への注目が低下し,視覚的理解が不十分になった。
私たちはこのバイアスの2つの主な理由を特定します。
1. LLMの事前学習段階とマルチモーダルアライメント段階の異なる訓練尺度。
2. テキストデータの短期的依存による学習的推論バイアス
そこで本研究では,LVLMの言語バイアスにMDA (muLtimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG)を用いて対処するシステムフレームワークであるLACingを提案する。
具体的には、MDAは、モデル全体にわたる視覚的入力の統合を強化する並列二重アテンション機構を導入している。
IFGは、学習中に学習可能なソフトな視覚的プロンプトを導入し、テキスト入力を優先するためにLVLMを強制するように設計された視覚的入力を置き換える。
そして、IFGは、隣接するテキスト入力に対するモデルの過度信頼を軽減するために、ソフトビジュアルプロンプトを用いた新しい復号戦略を提案する。
包括的実験により,LVLMを言語バイアスから効果的に除去し,視覚的理解の向上と幻覚の低減を,追加のトレーニングリソースやデータを必要とすることなく実現可能であることが示された。
コードとモデルは[lacing-lvlm.github.io](https://lacing-lvlm.github.io]で利用可能です。
関連論文リスト
- Mitigating Hallucinations in Large Vision-Language Models (LVLMs) via Language-Contrastive Decoding (LCD) [13.430637580980164]
Large Vision-Language Models (LVLM) は、画像入力とテキスト入力の両方の処理を容易にし、AI機能を拡張したLarge Language Models (LLM)の拡張である。
本研究では,LVLMの出力をLarge Language Models分布の信頼性レベルに基づいて調整するLanguage Contrastive Decoding (LCD)アルゴリズムを提案する。
本手法は,複雑な後処理や再学習を必要とせず,LVLMを効果的に改善し,異なるモデルに容易に適用できる。
論文 参考訳(メタデータ) (2024-08-06T08:10:34Z) - Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs [14.381188702947949]
LVLM(Large Vision-Language Models)は、主に視覚エンコーダのイメージ特徴とLLM(Large Language Models)を連携させて、その優れたテキスト生成能力を活用する。
このLVLMの不均衡は幻覚の原因となる可能性がある。
本稿では,画像理解と言語推論の平衡点を求める学習自由アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-31T17:46:57Z) - Improving Visual Commonsense in Language Models via Multiple Image Generation [41.565399860320966]
既存の大規模言語モデル(LLM)は、主にテキストデータのみを使用して訓練されている。
視覚言語モデルは視覚的に指向するタスクに優れており、基本的なコモンセンス推論のような視覚的でないタスクでは失敗することが多い。
この分散は、基本的なテキストベースの言語推論と堅牢な視覚的理解の統合という、重要な課題を浮き彫りにする。
論文 参考訳(メタデータ) (2024-06-19T15:17:10Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。