Fugu-MT 論文翻訳(概要): Multimodal Task Interference: A Benchmark and Analysis of History-Target Mismatch in Multimodal LLMs

論文の概要: Multimodal Task Interference: A Benchmark and Analysis of History-Target Mismatch in Multimodal LLMs

arxiv url: http://arxiv.org/abs/2603.18425v1
Date: Thu, 19 Mar 2026 02:36:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:05.922918
Title: Multimodal Task Interference: A Benchmark and Analysis of History-Target Mismatch in Multimodal LLMs
Title（参考訳）: マルチモーダルタスク干渉:マルチモーダルLLMにおける履歴ターゲットミスマッチのベンチマークと解析
Authors: Masayuki Kawarada, Tatsuya Ishigaki, Hiroya Takamura,
Abstract要約: タスク干渉は、単一の会話内でタスクスイッチによって引き起こされるパフォーマンス劣化であり、テキストのみの設定でのみ研究されている。我々は,この現象をマルチモーダル LLM で評価するためのベンチマークを提案し,テキストと視覚の6つのタスクを,モダリティミスマッチ,推論ミスマッチ,応答形式ミスマッチという3つの軸に沿って,ヒストリーターゲットの体系的なバリエーションでカバーした。オープンウェイトモデルとプロプライエタリモデルの両方の実験では、タスクの干渉は非常に指向性が高く、テキストのみからイメージベースのターゲットに切り替えるとパフォーマンスが低下し、リバーストランジションは最小限の劣化をもたらす。
参考スコア（独自算出の注目度）: 10.302976038652647
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Task interference, the performance degradation caused by task switches within a single conversation, has been studied exclusively in text-only settings despite the growing prevalence of multimodal dialogue systems. We introduce a benchmark for evaluating this phenomenon in multimodal LLMs, covering six tasks across text and vision with systematic variation of history-target along three axes: modality mismatch, reasoning mismatch, and answer format mismatch. Experiments on both open-weights and proprietary models reveal that task interference is highly directional: switching from text-only to image-based targets causes severe performance drops, while the reverse transition yields minimal degradation. Interference is further amplified when mismatches co-occur across multiple dimensions, and is driven most strongly by modality differences, followed by answer format, while reasoning requirement shifts cause minimal degradation.
Abstract（参考訳）: タスク干渉は,マルチモーダル対話システムの普及にもかかわらず,テキストのみの設定でのみ研究されている。我々は,この現象をマルチモーダル LLM で評価するためのベンチマークを提案し,テキストと視覚の6つのタスクを,モダリティミスマッチ,推論ミスマッチ,応答形式ミスマッチという3つの軸に沿って,ヒストリーターゲットの体系的なバリエーションでカバーした。オープンウェイトモデルとプロプライエタリモデルの両方の実験では、タスクの干渉が極めて指向性が高いことが示されている。干渉は、複数の次元で一致しないときにさらに増幅され、モダリティの違いによって最も強く駆動され、応答形式が続く一方、推論要求シフトは最小限の劣化を引き起こす。

関連論文リスト

When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。 LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文参考訳（メタデータ） (2025-11-20T10:14:32Z)
ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。 OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文参考訳（メタデータ） (2025-07-01T16:01:08Z)
Diagnosing and Mitigating Modality Interference in Multimodal Large Language Models [26.005367102695317]
マルチモーダル大規模言語モデルでは,非関連信号とタスク関連情報を区別することが困難である。無関係なモダリティからの急激な情報は、しばしば大幅な性能低下をもたらすことを示す。本稿では,摂動と対向的摂動を併用した摂動に基づくデータ拡張を含む,MLLMを微調整する新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-05-26T07:31:32Z)
Low-rank Prompt Interaction for Continual Vision-Language Retrieval [47.323830129786145]
本稿では,マルチモーダル理解の問題に対処するために,低ランクプロンプトインタラクションを提案する。トレーニングパラメータがレイヤー数やタスク数にスケールすることを考えると、低ランクな相互作用強化分解を提案する。また、ロバストネストレーニングを確保するために、階層的な低ランクのコントラスト学習を採用しています。
論文参考訳（メタデータ） (2025-01-24T10:00:47Z)
Image First or Text First? Optimising the Sequencing of Modalities in Large Language Model Prompting and Reasoning Tasks [0.0]
本稿では,マルチモーダル内における画像とテキストのシークエンシングが,大規模言語モデル(LLM)の推論性能にどのように影響するかを検討する。単一の画像を含む単純なタスクに対して、モダリティシークエンシングは精度に明確な影響を及ぼした。複数の画像と複雑な推論ステップを含むより複雑なタスクでは、シークエンシングの効果が減少し、おそらくタスクの認知的要求が増大したためである。
論文参考訳（メタデータ） (2024-10-04T00:55:15Z)
RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。 RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。 RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文参考訳（メタデータ） (2024-07-15T16:25:07Z)
Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。 MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文参考訳（メタデータ） (2023-07-19T02:11:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。