Fugu-MT 論文翻訳(概要): Source-Modality Monitoring in Vision-Language Models

論文の概要: Source-Modality Monitoring in Vision-Language Models

arxiv url: http://arxiv.org/abs/2604.22038v1
Date: Thu, 23 Apr 2026 19:49:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-27 15:36:26.254762
Title: Source-Modality Monitoring in Vision-Language Models
Title（参考訳）: 視覚言語モデルにおけるソースモダリティモニタリング
Authors: Etha Tianze Hua, Tian Yun, Ellie Pavlick,
Abstract要約: 我々は、より一般的なバインディング問題の例として、ソースモダリティモニタリング(source-modality monitoring)を考える。統語的信号と意味的信号はどちらも重要な役割を担っているが、モーダルが分布的に非常に異なる場合、後者は前者を上回る傾向にある。
参考スコア（独自算出の注目度）: 16.990140746029553
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We define and investigate source-modality monitoring -- the ability of multimodal models to track and communicate the input source from which pieces of information originate. We consider source-modality monitoring as an instance of the more general binding problem, and evaluate the extent to which models exploit syntactic vs. semantic signals in order to bind words like image in a user-provided prompt to specific components of their input and context (i.e., actual images). Across experiments spanning 11 vision-language models (VLMs) performing target-modality information retrieval tasks, we find that both syntactic and semantic signals play an important role, but that the latter tend to outweigh the former in cases when modalities are highly distinct distributionally. We discuss the implications of these findings for model robustness, and in the context of increasingly multimodal agentic systems.
Abstract（参考訳）: 我々は、ソース・モダリティ監視(source-modality monitoring) -- 情報の一部が発する入力ソースを追跡し、伝達するマルチモーダルモデル(multimodal model)の機能を定義する。我々は、ソースモダリティモニタリングを、より一般的なバインディング問題の例と考え、ユーザが提案するプロンプト内の画像のような単語を、入力やコンテキスト(実際の画像)の特定のコンポーネントにバインドするために、モデルが構文対意味信号を利用する範囲を評価する。 11個の視覚言語モデル(VLM)にまたがる目標・モダリティ情報検索作業において,構文的信号と意味的信号の両方が重要な役割を担っているが,モダリティが高度に分散している場合,後者は前者を上回る傾向にある。本研究はモデルロバスト性および多モードエージェントシステムの文脈におけるこれらの発見の意義について論じる。

関連論文リスト

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。 DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文参考訳（メタデータ） (2026-02-11T12:51:10Z)
Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional [40.11148315577635]
マルチモーダル大言語モデル(MLLM)を用いた23の視覚的質問応答ベンチマークにおける依存性の定量化のための大規模実験的検討を行った。その結果,視力,質問 (テキスト) およびそれらの相互作用への依存度は,ベンチマーク内とベンチマーク内の両方で大きく異なることがわかった。テキストのみのバイアスを軽減するための多くのベンチマークが、必然的に画像のみの依存関係を増幅していることがわかった。この特徴はモデルのサイズにまたがって持続し、より大規模なモデルはこれらのモダリティ内依存を使い、マルチモーダル推論の欠如を隠蔽する高い性能を達成する。
論文参考訳（メタデータ） (2025-09-27T21:13:29Z)
How Do Vision-Language Models Process Conflicting Information Across Modalities? [15.90185747024602]
本稿では,入力ストリームが相反する情報を示す場合に,そのようなモデルがどのように振る舞うかを理解することを目的とする。例えば、キャプションが何を言っているかに関わらず、イメージを報告するなど、モデルは一方よりも一方のモダリティを好むことが多いが、異なるモデルはどのモダリティを好むかが異なる。
論文参考訳（メタデータ） (2025-07-02T15:15:14Z)
Multi-Faceted Multimodal Monosemanticity [42.64636740703632]
深層マルチモーダルモデルから抽出した解釈可能なモノセマンティックな特徴を解析するために,データ駆動型アプローチを採用する。具体的には,大規模画像とテキストのペアで学習した視覚言語表現モデルであるCLIPについて検討する。本稿では,CLIPから学んだ特徴を抽出・解析する多モード解釈可能性ツールと尺度について述べる。
論文参考訳（メタデータ） (2025-02-16T14:51:07Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文参考訳（メタデータ） (2022-09-14T22:04:10Z)
High-Modality Multimodal Transformer: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文参考訳（メタデータ） (2022-03-02T18:56:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。