論文の概要: Identifying and Mitigating Position Bias of Multi-image Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.13792v1
- Date: Tue, 18 Mar 2025 00:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:16.208854
- Title: Identifying and Mitigating Position Bias of Multi-image Vision-Language Models
- Title(参考訳): マルチイメージビジョンランゲージモデルにおける位置バイアスの同定と修正
- Authors: Xinyu Tian, Shu Zou, Zhaoyuan Yang, Jing Zhang,
- Abstract要約: 本稿では,LVLM(Large Vision-Language Models)が複数の画像にまたがる情報活用に苦慮していることを示す。
我々は、このバイアスを緩和する訓練なしのアプローチであるSoFt Attention(SoFA)を提案する。
実験により,SoFAは位置バイアスを低減し,既存のLVLMの推論性能を向上させることが示された。
- 参考スコア(独自算出の注目度): 8.477985931416303
- License:
- Abstract: The evolution of Large Vision-Language Models (LVLMs) has progressed from single to multi-image reasoning. Despite this advancement, our findings indicate that LVLMs struggle to robustly utilize information across multiple images, with predictions significantly affected by the alteration of image positions. To further explore this issue, we introduce Position-wise Question Answering (PQA), a meticulously designed task to quantify reasoning capabilities at each position. Our analysis reveals a pronounced position bias in LVLMs: open-source models excel in reasoning with images positioned later but underperform with those in the middle or at the beginning, while proprietary models show improved comprehension for images at the beginning and end but struggle with those in the middle. Motivated by this, we propose SoFt Attention (SoFA), a simple, training-free approach that mitigates this bias by employing linear interpolation between inter-image causal attention and bidirectional counterparts. Experimental results demonstrate that SoFA reduces position bias and enhances the reasoning performance of existing LVLMs.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の進化は、シングルイメージ推論からマルチイメージ推論へと進展している。
この進歩にもかかわらず、LVLMは複数の画像にまたがる情報利用に苦慮しており、画像位置の変化による予測は著しく影響している。
この問題をさらに探求するために,各位置における推論能力の定量化を目的とした,精密に設計されたタスクであるPQA(Pight-wise Question Answering)を導入する。
我々の分析では,LVLMにおける位置バイアスが顕著であることが明らかとなった: オープンソースモデルは,後から位置付けされた画像の推論に優れるが,中間画像や初期画像と性能が劣る一方,プロプライエタリモデルでは,画像の理解性が向上するが,中間画像では困難である。
そこで本研究では,画像間の因果的注意と双方向的注意を線形に補間することにより,このバイアスを緩和する,シンプルでトレーニング不要なアプローチであるSoFt Attention(SoFA)を提案する。
実験により,SoFAは位置バイアスを低減し,既存のLVLMの推論性能を向上させることが示された。
関連論文リスト
- Mitigating Object Hallucinations in Large Vision-Language Models via Attention Calibration [22.39558434131574]
LVLM(Large Vision-Language Models)は、視覚的コンテンツと実際に一致しない応答を生成する。
我々は、単一の意味のない入力画像からバイアスを推定する、トレーニング不要なソリューションUniform Attention (UAC)を導入する。
また、画像中のオブジェクトがどこにあっても一貫した出力を強制する、微調整ソリューションであるDynamic Attention (DAC)を導入します。
論文 参考訳(メタデータ) (2025-02-04T03:27:38Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation Perspective [13.486497323758226]
広範囲なデータセットで事前訓練された視覚言語モデルは、性情報とオブジェクトやシナリオを関連付けることによって、必然的にバイアスを学習することができる。
本稿では,因果媒介分析を取り入れた枠組みを提案し,バイアス発生と伝播の経路を計測・マッピングする。
論文 参考訳(メタデータ) (2024-07-03T05:19:45Z) - From Redundancy to Relevance: Information Flow in LVLMs Across Reasoning Tasks [33.476693301050275]
我々は,視覚的質問応答と画像キャプションタスクのために,様々なLVLMの切り抜き戦略を用いて実験を行った。
視覚的表現の貢献の観点から情報の流れを探索することにより、浅い層に収束する傾向にあるが、より深い層に分散する傾向があることを観察する。
論文 参考訳(メタデータ) (2024-06-04T13:52:54Z) - Unveiling the Tapestry of Consistency in Large Vision-Language Models [25.106467574467448]
提案手法は,プロンプトの解空間が知識点を中心に回転するときに,LVLMがどう機能するかを直感的に解析するベンチマークである。
ConBenchツールに基づいて、タペストリーを最初に公開し、以下の結果を得た。
我々は,本論文が研究コミュニティのモデル評価を加速し,一貫性領域の今後の進歩を促進することを願っている。
論文 参考訳(メタデータ) (2024-05-23T04:08:23Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。