論文の概要: How Do Vision-Language Models Process Conflicting Information Across Modalities?
- arxiv url: http://arxiv.org/abs/2507.01790v1
- Date: Wed, 02 Jul 2025 15:15:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.344438
- Title: How Do Vision-Language Models Process Conflicting Information Across Modalities?
- Title(参考訳): モダリティ間の情報衝突を視覚言語モデルがどのように処理するか
- Authors: Tianze Hua, Tian Yun, Ellie Pavlick,
- Abstract要約: 本稿では,入力ストリームが相反する情報を示す場合に,そのようなモデルがどのように振る舞うかを理解することを目的とする。
例えば、キャプションが何を言っているかに関わらず、イメージを報告するなど、モデルは一方よりも一方のモダリティを好むことが多いが、異なるモデルはどのモダリティを好むかが異なる。
- 参考スコア(独自算出の注目度): 15.90185747024602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI models are increasingly required to be multimodal, integrating disparate input streams into a coherent state representation on which subsequent behaviors and actions can be based. This paper seeks to understand how such models behave when input streams present conflicting information. Focusing specifically on vision-language models, we provide inconsistent inputs (e.g., an image of a dog paired with the caption "A photo of a cat") and ask the model to report the information present in one of the specific modalities (e.g., "What does the caption say / What is in the image?"). We find that models often favor one modality over the other, e.g., reporting the image regardless of what the caption says, but that different models differ in which modality they favor. We find evidence that the behaviorally preferred modality is evident in the internal representational structure of the model, and that specific attention heads can restructure the representations to favor one modality over the other. Moreover, we find modality-agnostic "router heads" which appear to promote answers about the modality requested in the instruction, and which can be manipulated or transferred in order to improve performance across datasets and modalities. Together, the work provides essential steps towards identifying and controlling if and how models detect and resolve conflicting signals within complex multimodal environments.
- Abstract(参考訳): AIモデルはますますマルチモーダルであることが求められており、異なる入力ストリームをコヒーレントな状態表現に統合し、その後の振る舞いとアクションをベースとしています。
本稿では,入力ストリームが相反する情報を示す場合に,そのようなモデルがどのように振る舞うかを理解することを目的とする。
視覚言語モデルに特化して、私たちは一貫性のない入力(例:「猫の写真」と組み合わせた犬のイメージ)を提供し、特定のモダリティの1つに存在する情報をモデルに報告する(例:「キャプションは、画像の中に何があるのか」)。
例えば、キャプションが何を言っているかに関わらず、イメージを報告するが、異なるモデルはどのモダリティを好むかが異なる。
モデルの内部表現構造において、行動に好まれるモダリティが明らかであり、特定のアテンションヘッドが表現を再構成し、一方のモダリティが他方よりも好まれることを示す。
さらに,モダリティに依存しない「ルータヘッド」が,命令の要求するモダリティに関する回答を促進するとともに,データセットやモダリティのパフォーマンスを向上させるために操作や転送を行うことができる。
この研究は、複雑なマルチモーダル環境内の競合する信号を検出し、どのように解決するかをモデルが特定し、制御するための重要なステップを提供する。
関連論文リスト
- Multimodal Representation Alignment for Cross-modal Information Retrieval [12.42313654539524]
異なる機械学習モデルは、異なる方法で同じ基礎概念を表現することができる。
この可変性は、入力として与えられた1つのモダリティで対応する表現を識別することを目的として、Wildのマルチモーダル検索において特に有用である。
そこで本研究では,視覚言語モデルと統合単調モデルの両方から得られる視覚とテキストの埋め込みの幾何学的関係について検討する。
次に、ニューラルネットワークを介して実装された4つの標準的な類似度メトリクスと2つの学習した指標を使用して、これらの表現を調整します。
論文 参考訳(メタデータ) (2025-06-10T13:16:26Z) - Coordinated Robustness Evaluation Framework for Vision-Language Models [4.0196072781228285]
我々は、画像とテキストの両方を入力とし、共同表現を生成する一般的な代理モデルを訓練する。
この協調攻撃戦略は、視覚的質問と回答と視覚的推論データセットに基づいて評価される。
論文 参考訳(メタデータ) (2025-06-05T08:09:05Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Discriminative Multimodal Learning via Conditional Priors in Generative
Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。
このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文 参考訳(メタデータ) (2021-10-09T17:22:24Z) - Vision-and-Language or Vision-for-Language? On Cross-Modal Influence in
Multimodal Transformers [15.826109118064716]
事前訓練された視覚と言語 BERT は、両方のモダリティから情報を組み合わせた表現を学習することを目的としている。
本稿では,モーダル間入力アブレーションに基づく診断手法を提案し,それらのモデルが実際にモーダル間情報を統合する程度を評価する。
論文 参考訳(メタデータ) (2021-09-09T17:47:50Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。