論文の概要: Advancing Multimodal In-Context Learning in Large Vision-Language Models with Task-aware Demonstrations
- arxiv url: http://arxiv.org/abs/2503.04839v1
- Date: Wed, 05 Mar 2025 16:33:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:25:21.677562
- Title: Advancing Multimodal In-Context Learning in Large Vision-Language Models with Task-aware Demonstrations
- Title(参考訳): タスク認識型大規模視覚言語モデルにおけるマルチモーダル・インコンテキスト学習の促進
- Authors: Yanshu Li,
- Abstract要約: LVLM(Large Vision-Language Models)の重要な機能として,マルチモーダルインコンテキスト学習(ICL)が登場している。
我々はマルチモーダル ICL の根底にあるコアメカニズムに光を当て、ロバストなインコンテキストのデモシーケンスを構成する上で、タスクマッピングが重要な要素であると認識した。
タスク認識機能を備えた軽量で強力なデコーダのみの変換器である textitSabER を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Multimodal in-context learning (ICL) has emerged as a key capability of Large Vision-Language Models (LVLMs), driven by their increasing scale and applicability. Despite its promise, effective ICL in the multimodal setting remains challenging due to the inherent complexity of image-text inputs and the high sensitivity of ICL performance to input configurations. In this work, we shed light on the core mechanism underlying multimodal ICL, identifying task mapping as a crucial factor in configuring robust in-context demonstration (ICD) sequences. Building on these insights, we propose \textit{SabER}, a lightweight yet powerful decoder-only transformer equipped with task-aware attention, which intelligently selects and arranges ICDs from a demonstration library in an autoregressive fashion. This design enables fine-grained feature extraction and cross-modal reasoning, iteratively refining task mapping to generate high-quality ICD sequences. Through extensive experiments covering five LVLMs and nine benchmark datasets, SabER not only demonstrates strong empirical performance, but also provides deeper understanding of how task semantics interact with multimodal ICDs. Our findings highlight the importance of principled ICD sequence configuration and open new avenues to enhance multimodal ICL in a wide range of real-world scenarios.
- Abstract(参考訳): マルチモーダル・イン・コンテクスト・ラーニング (ICL) は,大規模視覚言語モデル (LVLM) の重要な機能として登場し,その規模と適用性の向上に寄与している。
その約束にもかかわらず、画像テキスト入力の複雑さと入力設定に対するICL性能の高感度のため、マルチモーダル設定における効果的なICLは依然として困難である。
本研究では,マルチモーダル ICL の基盤となるコアメカニズムに光を当て,ロバストなインコンテキスト・イン・デモ(ICD) シーケンスを構成する上で,タスクマッピングを重要な要素として認識する。
これらの知見に基づいて,タスク認識機能を備えた軽量で強力なデコーダのみのトランスフォーマである‘textit{SabER} を提案する。
この設計により、細粒度の特徴抽出とクロスモーダル推論が可能となり、タスクマッピングを反復的に精細化し、高品質なICDシーケンスを生成する。
5つのLVLMと9つのベンチマークデータセットをカバーする広範な実験を通じて、Saberは強力な経験的パフォーマンスを示すだけでなく、タスクセマンティクスがマルチモーダルIDDとどのように相互作用するかをより深く理解する。
本研究は,多モードICLを広範囲の現実シナリオで拡張するために,原則的ICDシーケンス構成の重要性と新たな道を開くことの重要性を強調した。
関連論文リスト
- EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Multimodal Contrastive In-Context Learning [0.9120312014267044]
本稿では,Large Language Models (LLMs) における勾配なしインコンテキスト学習 (ICL) の理解を高めるために,新しいマルチモーダルコントラスト型インコンテキスト学習フレームワークを提案する。
まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。
第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。
第3に、ヘイトフルミームの検出の有効性を示すICLのオンザフライアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:10:01Z) - From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning [47.82447085244952]
マルチモーダル ICL では,タスクごとにモダリティが異なることが示される。
タスク固有のモダリティの影響に導かれ、ICL性能を高めるためのモダリティ駆動型実証戦略を推奨する。
論文 参考訳(メタデータ) (2024-07-01T01:57:21Z) - LIVE: Learnable In-Context Vector for Visual Question Answering [37.89141789981324]
In-Context Learning (ICL) 機能を備えたLMM(Large Multimodal Models) を開発した。
ICLの適用は通常、2つの大きな課題に直面している。1) より多くのICDを使用すると、推論時間が大きく増加し、2) 性能はICDの選択に敏感になる。
実演からタスク情報を抽出するLearning In-Context VEctor (LIVE)を提案する。
論文 参考訳(メタデータ) (2024-06-19T03:33:45Z) - What Makes Multimodal In-Context Learning Work? [58.48612721156335]
本稿では,M-ICL(Multimodal ICL)を大規模マルチモーダルモデルで検討するための枠組みを提案する。
M-ICLは主にテキスト駆動機構に依存しており、画像のモダリティからはほとんど影響を受けない。
我々は、M-ICLのいくつかのバイアスと限界を特定し、デプロイメント前に考慮することを保証している。
論文 参考訳(メタデータ) (2024-04-24T08:50:45Z) - Towards Multimodal In-Context Learning for Vision & Language Models [21.69457980865084]
VLM(State-of-the-the-art Vision-Language Models)は、ビジョンと言語のモダリティを基盤としている。
本稿では, 効果的なデータ混合を用いた, 単純かつ驚くほど効果的なマルチターンカリキュラムベースの学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T13:53:37Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。