論文の概要: Why Multimodal In-Context Learning Lags Behind? Unveiling the Inner Mechanisms and Bottlenecks
- arxiv url: http://arxiv.org/abs/2604.13403v1
- Date: Wed, 15 Apr 2026 02:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.351594
- Title: Why Multimodal In-Context Learning Lags Behind? Unveiling the Inner Mechanisms and Bottlenecks
- Title(参考訳): なぜマルチモーダルなインテクスト学習ラグが背後にあるのか?
- Authors: Yu Wang, Sharon Li,
- Abstract要約: In-context Learning (ICL)は、モデルが推論時デモを通じて新しいタスクに適応できるようにする。
大規模な言語モデルでの成功にもかかわらず、ICLのマルチモーダル設定への拡張はいまだに理解されていない。
マルチモーダル ICL はゼロショット設定ではテキストのみの ICL と相容れない性能を示すが,数発のデモでは著しく劣化する。
- 参考スコア(独自算出の注目度): 7.62772056485722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) enables models to adapt to new tasks via inference-time demonstrations. Despite its success in large language models, the extension of ICL to multimodal settings remains poorly understood in terms of its internal mechanisms and how it differs from text-only ICL. In this work, we conduct a systematic analysis of ICL in multimodal large language models. Using identical task formulations across modalities, we show that multimodal ICL performs comparably to text-only ICL in zero-shot settings but degrades significantly under few-shot demonstrations. To understand this gap, we decompose multimodal ICL into task mapping construction and task mapping transfer, and analyze how models establish cross-modal task mappings, and transfer them to query samples across layers. Our analysis reveals that current models lack reasoning-level alignment between visual and textual representations, and fail to reliably transfer learned task mappings to queries. Guided by these findings, we further propose a simple inference-stage enhancement method that reinforces task mapping transfer. Our results provide new insights into the mechanisms and limitations of multimodal ICL and suggest directions for more effective multimodal adaptation. Our code is available \href{https://github.com/deeplearning-wisc/Multimocal-ICL-Analysis-Framework-MGI}{here}.
- Abstract(参考訳): In-context Learning (ICL)は、モデルが推論時デモを通じて新しいタスクに適応できるようにする。
大規模な言語モデルでの成功にもかかわらず、ICLのマルチモーダル設定への拡張は、内部メカニズムやテキストのみのICLとどのように異なるかという点で、いまだに理解されていない。
本研究では,多モーダル大規模言語モデルにおけるICLの体系的解析を行う。
マルチモーダル ICL はゼロショット設定ではテキストのみの ICL と同等に機能するが,数発のデモでは著しく低下する。
このギャップを理解するために、マルチモーダル ICL をタスクマッピング構築とタスクマッピング転送に分解し、モデルがどのようにクロスモーダルなタスクマッピングを確立するかを分析し、それらを層間のクエリサンプルに転送する。
分析の結果,現在のモデルでは視覚的およびテキスト的表現間の推論レベルのアライメントが欠如しており,学習したタスクマッピングをクエリに確実に転送できないことがわかった。
これらの知見に導かれて,タスクマッピング転送を補強するシンプルな推論段階拡張手法を提案する。
本研究は,マルチモーダルICLのメカニズムと限界に関する新たな知見を提供し,より効果的なマルチモーダル適応の方向性を提案する。
私たちのコードは href{https://github.com/deeplearning-wisc/Multimocal-ICL-Analysis-Framework-MGI}{here} で利用可能です。
関連論文リスト
- What do vision-language models see in the context? Investigating multimodal in-context learning [2.1119217917006234]
インコンテキスト学習(ICL)により、大規模言語モデルでは、パラメータ更新なしで実演例からタスクを学習することができる。
視覚言語モデル(VLM)におけるICLの体系的研究について述べる。
我々は、設計、アーキテクチャの選択、トレーニング戦略がマルチモーダルICLにどのように影響するかを分析する。
論文 参考訳(メタデータ) (2025-10-28T11:55:24Z) - ContextNav: Towards Agentic Multimodal In-Context Learning [85.05420047017513]
ContextNavは、自動検索のスケーラビリティと人間のようなキュレーションの品質と適応性を統合するエージェントフレームワークである。
リソースを意識したマルチモーダル埋め込みパイプラインを構築し、検索可能なベクトルデータベースを維持し、エージェント検索と構造アライメントを適用して、ノイズ耐性のあるコンテキストを構築する。
実験の結果、ContextNavはさまざまなデータセットで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-06T07:49:52Z) - True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。
現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。
視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文 参考訳(メタデータ) (2025-07-21T17:08:18Z) - From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning [47.82447085244952]
マルチモーダル ICL では,タスクごとにモダリティが異なることが示される。
タスク固有のモダリティの影響に導かれ、ICL性能を高めるためのモダリティ駆動型実証戦略を推奨する。
論文 参考訳(メタデータ) (2024-07-01T01:57:21Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。