論文の概要: TACO: Enhancing Multimodal In-context Learning via Task Mapping-Guided Sequence Configuration
- arxiv url: http://arxiv.org/abs/2505.17098v1
- Date: Wed, 21 May 2025 05:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.560448
- Title: TACO: Enhancing Multimodal In-context Learning via Task Mapping-Guided Sequence Configuration
- Title(参考訳): TACO:タスクマッピング誘導シーケンス構成によるマルチモーダルインコンテキスト学習の実現
- Authors: Yanshu Li, Tian Yun, Jianjiang Yang, Pinyuan Feng, Jinfa Huang, Ruixiang Tang,
- Abstract要約: 大規模視覚言語モデル(LVLM)の能力を利用するための重要なメカニズムとして,マルチモーダル・インコンテキスト・ラーニング(ICL)が登場した。
本稿では,タスク認識機能を備えた軽量トランスフォーマーモデルTACOについて述べる。
5つのLVLMと9つのデータセットの実験は、TACOが多様なICLタスクのベースラインを一貫して超えることを示した。
- 参考スコア(独自算出の注目度): 11.724886737930671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal in-context learning (ICL) has emerged as a key mechanism for harnessing the capabilities of large vision-language models (LVLMs). However, its effectiveness remains highly sensitive to the quality of input in-context sequences, particularly for tasks involving complex reasoning or open-ended generation. A major limitation is our limited understanding of how LVLMs actually exploit these sequences during inference. To bridge this gap, we systematically interpret multimodal ICL through the lens of task mapping, which reveals how local and global relationships within and among demonstrations guide model reasoning. Building on this insight, we present TACO, a lightweight transformer-based model equipped with task-aware attention that dynamically configures in-context sequences. By injecting task-mapping signals into the autoregressive decoding process, TACO creates a bidirectional synergy between sequence construction and task reasoning. Experiments on five LVLMs and nine datasets demonstrate that TACO consistently surpasses baselines across diverse ICL tasks. These results position task mapping as a valuable perspective for interpreting and improving multimodal ICL.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の能力を利用するための重要なメカニズムとして,マルチモーダル・インコンテキスト学習(ICL)が登場している。
しかし、その効果は、特に複雑な推論やオープン・エンド・ジェネレーションを含むタスクにおいて、入力のインコンテキスト・シーケンスの品質に非常に敏感なままである。
大きな制限は、LVLMが推論中に実際にこれらのシーケンスをどのように利用するかの限定的な理解である。
このギャップを埋めるために,マルチモーダルICLをタスクマッピングのレンズを通して体系的に解釈し,実演における局所的およびグローバルな関係がモデル推論を導く方法を明らかにする。
この知見に基づいて,タスク認識機能を備えた軽量トランスフォーマーモデルであるTACOを,テキスト内シーケンスを動的に構成する。
タスクマッピング信号を自己回帰デコーディングプロセスに注入することにより、TACOはシーケンス構築とタスク推論の間の双方向のシナジーを生成する。
5つのLVLMと9つのデータセットの実験は、TACOが多様なICLタスクのベースラインを一貫して超えることを示した。
これらの結果から、タスクマッピングはマルチモーダルICLの解釈と改善の貴重な視点として位置づけられる。
関連論文リスト
- Advancing Multimodal In-Context Learning in Large Vision-Language Models with Task-aware Demonstrations [0.0]
LVLM(Large Vision-Language Models)の重要な機能として,マルチモーダルインコンテキスト学習(ICL)が登場している。
我々はマルチモーダル ICL の根底にあるコアメカニズムに光を当て、ロバストなインコンテキストのデモシーケンスを構成する上で、タスクマッピングが重要な要素であると認識した。
タスク認識機能を備えた軽量で強力なデコーダのみの変換器である textitSabER を提案する。
論文 参考訳(メタデータ) (2025-03-05T16:33:10Z) - Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。
トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。
VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - AgentPS: Agentic Process Supervision for Multi-modal Content Quality Assurance through Multi-round QA [9.450927573476822]
textitAgentPSは、エージェントプロセススーパービジョンをMLLMに統合する新しいフレームワークである。
textitAgentPSは、プロプライエタリなTikTokデータセット上でのベースラインMLLMよりも大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-12-15T04:58:00Z) - TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action [103.5952731807559]
複雑・多段階・多モードタスクの性能向上を目的とした多モード大規模アクションモデルであるTACOを提案する。
推論中、TACOはチェーン・オブ・シント・アンド・アクション(CoTA)を生成し、OCR、深さ推定、電卓などの外部ツールを呼び出すことで中間ステップを実行する。
このデータセットにより、TACOは複雑な推論とアクションパスを学習し、直接回答だけでチューニングデータに基づいてトレーニングされた既存のモデルを上回ることができる。
論文 参考訳(メタデータ) (2024-12-07T00:42:04Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。