論文の概要: Challenges in Understanding Modality Conflict in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.02805v1
- Date: Tue, 02 Sep 2025 20:15:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.329754
- Title: Challenges in Understanding Modality Conflict in Vision-Language Models
- Title(参考訳): 視覚・言語モデルにおけるモダリティ問題理解の課題
- Authors: Trang Nguyen, Jackson Michaels, Madalina Fiterau, David Jensen,
- Abstract要約: 本稿では、視覚言語モデル(VLM)におけるコンフリクト検出を競合解決から切り離すことの課題について述べる。
LLaVA-OV-7Bは,マルチモーダル入力の競合に直面すると,様々な解像度の動作を示す技術である。
その結果, モデル中間層に線形デオード可能なコンフリクト信号が出現し, コンフリクト検出と分解に関する注意パターンがネットワークの異なる段階で分散していることが示唆された。
- 参考スコア(独自算出の注目度): 6.839552274513621
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper highlights the challenge of decomposing conflict detection from conflict resolution in Vision-Language Models (VLMs) and presents potential approaches, including using a supervised metric via linear probes and group-based attention pattern analysis. We conduct a mechanistic investigation of LLaVA-OV-7B, a state-of-the-art VLM that exhibits diverse resolution behaviors when faced with conflicting multimodal inputs. Our results show that a linearly decodable conflict signal emerges in the model's intermediate layers and that attention patterns associated with conflict detection and resolution diverge at different stages of the network. These findings support the hypothesis that detection and resolution are functionally distinct mechanisms. We discuss how such decomposition enables more actionable interpretability and targeted interventions for improving model robustness in challenging multimodal settings.
- Abstract(参考訳): 本稿では,ビジョンランゲージモデル(VLM)におけるコンフリクト検出を競合解消から切り離すことの課題を強調し,線形プローブを用いた教師付き計測とグループベースのアテンションパターン解析を含む潜在的アプローチを提案する。
LLaVA-OV-7Bは,マルチモーダル入力の競合に直面すると,様々な解像度の動作を示す技術である。
その結果, モデル中間層に線形デオード可能なコンフリクト信号が出現し, コンフリクト検出と分解に関する注意パターンがネットワークの異なる段階で分散していることが示唆された。
これらの知見は、検出と分解は機能的に異なるメカニズムである、という仮説を支持している。
このような分解によって、より実用的な解釈が可能になり、マルチモーダルな設定に挑戦する際のモデルロバスト性を改善するために、ターゲットとなる介入が可能であるかについて議論する。
関連論文リスト
- Robust Multimodal Large Language Models Against Modality Conflict [94.12341487880465]
マルチモーダル大言語モデル(MLLM)は、現実のシナリオにおいて幻覚を起こす傾向がある。
我々は、MLLMをジレンマに配置し、幻覚に直接導く異なるモダリティからの入力における固有の矛盾について研究する。
モダリティ衝突による幻覚を緩和する3つの方法が提案されている。
論文 参考訳(メタデータ) (2025-07-09T11:18:38Z) - Conflicts in Texts: Data, Implications and Challenges [58.03478157713084]
矛盾は、状況の複雑さ、説明と対処が必要な変更、データアノテーションの難しさ、生成された出力の誤りを反映する可能性がある。
本調査ではこれらの矛盾を,(1)事実的矛盾,主観的偏見,および複数の視点が矛盾を生じさせるWeb上の自然テキスト,(2)注釈者がモデルトレーニングに影響を及ぼす注釈付きデータ,(3)幻覚と知識の衝突が発生するモデルインタラクションの3つの重要な領域に分類する。
我々は、対立する情報をより効果的に推論し、調整できる紛争対応NLPシステムの開発における重要な課題と今後の方向性を強調した。
論文 参考訳(メタデータ) (2025-04-28T04:24:01Z) - Multi-level Conflict-Aware Network for Multi-modal Sentiment Analysis [6.168616672805216]
マルチモーダル感情分析のための新しいマルチレベルコンフリクト・アウェア・ネットワーク(MCAN)を提案する。
MCANは段階的にアライメントとコンフリクトの構成要素を、一様および二様表現から分離する。
コンフリクトモデリングブランチでは、表現レベルと予測出力レベルの両方で差分制約を行う。
論文 参考訳(メタデータ) (2025-02-13T09:14:36Z) - Insight Over Sight: Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベル・ビジョン・知識衝突の問題について考察する。
MLLMにおけるこれらの競合をシミュレートし、評価するために設計された入力を生成するために、人間のループ品質制御を付加した自動フレームワークを導入する。
このフレームワークを用いて、374のオリジナル画像と1,122の高品質な質問応答対からなる診断ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-10T17:31:17Z) - ECon: On the Detection and Resolution of Evidence Conflicts [56.89209046429291]
大規模言語モデル(LLM)の台頭は意思決定システムにおける情報の質に大きな影響を与えている。
本研究では,実世界の誤情報シナリオをシミュレートするために,多様で検証された証拠衝突を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:41:17Z) - Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models [33.76903352835436]
LVLM(Large Vision-Language Models)は、マルチモーダル入力をキャプチャし、推論する能力を示す。
これらのモデルは、そのビジョンと言語コンポーネント間の表現された知識の不整合から生じるパラメトリックな知識の衝突を招きやすい。
我々は、それらを検出し、解釈し、緩和するための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-04T17:59:28Z) - Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach [30.9778838504609]
トランスを用いた視覚言語事前学習は、多数のマルチモーダルタスクにおいて例外的な性能を示した。
既存のマルチモーダルアタック手法は、視覚とテキストのモダリティ間のクロスモーダルな相互作用をほとんど見落としている。
本稿では,視覚的・テキスト的両モードの対向的摂動を同時に導入する,JMTFA(Joint Multimodal Transformer Feature Attack)を提案する。
論文 参考訳(メタデータ) (2024-08-24T04:31:37Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。