論文の概要: What do vision-language models see in the context? Investigating multimodal in-context learning
- arxiv url: http://arxiv.org/abs/2510.24331v1
- Date: Tue, 28 Oct 2025 11:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.101366
- Title: What do vision-language models see in the context? Investigating multimodal in-context learning
- Title(参考訳): 視覚言語モデルと文脈 : マルチモーダル・イン・コンテクスト学習の考察
- Authors: Gabriel O. dos Santos, Esther Colombini, Sandra Avila,
- Abstract要約: インコンテキスト学習(ICL)により、大規模言語モデルでは、パラメータ更新なしで実演例からタスクを学習することができる。
視覚言語モデル(VLM)におけるICLの体系的研究について述べる。
我々は、設計、アーキテクチャの選択、トレーニング戦略がマルチモーダルICLにどのように影響するかを分析する。
- 参考スコア(独自算出の注目度): 2.1119217917006234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) enables Large Language Models (LLMs) to learn tasks from demonstration examples without parameter updates. Although it has been extensively studied in LLMs, its effectiveness in Vision-Language Models (VLMs) remains underexplored. In this work, we present a systematic study of ICL in VLMs, evaluating seven models spanning four architectures on three image captioning benchmarks. We analyze how prompt design, architectural choices, and training strategies influence multimodal ICL. To our knowledge, we are the first to analyze how attention patterns in VLMs vary with an increasing number of in-context demonstrations. Our results reveal that training on imag-text interleaved data enhances ICL performance but does not imply effective integration of visual and textual information from demonstration examples. In contrast, instruction tuning improves instruction-following but can reduce reliance on in-context demonstrations, suggesting a trade-off between instruction alignment and in-context adaptation. Attention analyses further show that current VLMs primarily focus on textual cues and fail to leverage visual information, suggesting a limited capacity for multimodal integration. These findings highlight key limitations in the ICL abilities of current VLMs and provide insights for enhancing their ability to learn from multimodal in-context examples.
- Abstract(参考訳): In-context Learning (ICL)は、大規模言語モデル(LLM)がパラメータ更新なしで実演例からタスクを学習できるようにする。
LLMで広く研究されているが、VLM(Vision-Language Models)におけるその効果はいまだに未調査である。
本稿では,3つの画像キャプションベンチマークを用いて,4つのアーキテクチャにまたがる7つのモデルを評価した。
我々は、設計、アーキテクチャの選択、トレーニング戦略がマルチモーダルICLにどのように影響するかを分析する。
我々の知る限り、VLMにおける注意パターンが、コンテキスト内デモの増加とともにどのように変化するかを分析するのは、私たちは初めてである。
この結果から,画像テキストインターリーブデータのトレーニングはICL性能を向上させるが,実演例からの視覚情報とテキスト情報の統合を効果的に行なわないことが明らかとなった。
対照的に、インストラクションチューニングは命令追従を改善するが、インコンストラクタのデモへの依存を減らすことができ、インコンストラクタアライメントとインコンストラクタ適応のトレードオフを示唆している。
注意分析により、現在のVLMはテキストの手がかりに重点を置いており、視覚情報の活用に失敗したことが示され、マルチモーダル統合の限界が示唆された。
これらの知見は、現在のVLMのICL能力における重要な限界を浮き彫りにし、マルチモーダルなインコンテキストの例から学ぶ能力を高めるための洞察を提供する。
関連論文リスト
- True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。
現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。
視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文 参考訳(メタデータ) (2025-07-21T17:08:18Z) - Towards Multimodal In-Context Learning for Vision & Language Models [21.69457980865084]
VLM(State-of-the-the-art Vision-Language Models)は、ビジョンと言語のモダリティを基盤としている。
本稿では, 効果的なデータ混合を用いた, 単純かつ驚くほど効果的なマルチターンカリキュラムベースの学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T13:53:37Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Can Multimodal Large Language Models Truly Perform Multimodal In-Context Learning? [42.03008819332293]
インコンテキスト学習(ICL)機能を持つ大規模言語モデル(LLM)は、いくつかのデモ(デム)がある場合、特定のコンテキストに迅速に適応することができる。
最近、MLLM (Multimodal Large Language Models) もマルチモーダル ICL の機能を示し、画像、クエリ、回答を含むいくつかのマルチモーダルなデモに対してクエリに応答している。
論文 参考訳(メタデータ) (2023-11-29T19:08:11Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。