論文の概要: Where and What Matters: Sensitivity-Aware Task Vectors for Many-Shot Multimodal In-Context Learning
- arxiv url: http://arxiv.org/abs/2511.08246v1
- Date: Wed, 12 Nov 2025 01:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.718049
- Title: Where and What Matters: Sensitivity-Aware Task Vectors for Many-Shot Multimodal In-Context Learning
- Title(参考訳): マルチモーダル・インコンテキスト学習のための感性を考慮したタスクベクトルの在り方と課題
- Authors: Ziyu Ma, Chenhui Gou, Yiming Hu, Yong Wang, Xiangxiang Chu, Bohan Zhuang, Jianfei Cai,
- Abstract要約: そこで我々は,STV(Sensitivity-aware Task Vector insert framework)を提案する。
キーとなる洞察は、クエリとコンテキストのペア間でのアクティベーションデルタは一貫した構造パターンを示し、挿入のための信頼できるキューを提供します。
識別されたセンシティブ・アウェア・ロケーションに基づいて、アクティベーション値をクラスタリングし、各ロケーションに対して事前クラスタリングされたアクティベーションバンクを構築し、次に強化学習を適用し、最も適したアクティベーション・バンクを選択する。
- 参考スコア(独自算出の注目度): 57.082554323521464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Multimodal Models (LMMs) have shown promising in-context learning (ICL) capabilities, but scaling to many-shot settings remains difficult due to limited context length and high inference cost. To address these challenges, task-vector-based methods have been explored by inserting compact representations of many-shot in-context demonstrations into model activations. However, existing task-vector-based methods either overlook the importance of where to insert task vectors or struggle to determine suitable values for each location. To this end, we propose a novel Sensitivity-aware Task Vector insertion framework (STV) to figure out where and what to insert. Our key insight is that activation deltas across query-context pairs exhibit consistent structural patterns, providing a reliable cue for insertion. Based on the identified sensitive-aware locations, we construct a pre-clustered activation bank for each location by clustering the activation values, and then apply reinforcement learning to choose the most suitable one to insert. We evaluate STV across a range of multimodal models (e.g., Qwen-VL, Idefics-2) and tasks (e.g., VizWiz, OK-VQA), demonstrating its effectiveness and showing consistent improvements over previous task-vector-based methods with strong generalization.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は,コンテキスト内学習(ICL)の有望な能力を示している。
これらの課題に対処するため、モデルアクティベーションにマルチショットインコンテキストのデモのコンパクトな表現を挿入することでタスクベクトルベースの手法が検討されている。
しかし、既存のタスクベクタベースのメソッドは、タスクベクタを挿入する場所の重要性を見落としているか、あるいは各場所の適切な値を決定するのに苦労している。
そこで本稿では,STV(Sensitivity-aware Task Vector insert framework)を提案する。
キーとなる洞察は、クエリとコンテキストのペア間でのアクティベーションデルタは一貫した構造パターンを示し、挿入のための信頼できるキューを提供します。
識別されたセンシティブ・アウェア・ロケーションに基づいて、アクティベーション値をクラスタリングし、各ロケーションに対して事前クラスタリングされたアクティベーションバンクを構築し、次に強化学習を適用し、最も適したアクティベーション・バンクを選択する。
マルチモーダルモデル(例えば、Qwen-VL、Idefics-2)とタスク(例えば、VizWiz、OK-VQA)にまたがってSTVを評価し、その効果を実証し、強力な一般化を伴う従来のタスクベクトルベースの手法よりも一貫した改善を示す。
関連論文リスト
- Towards Agentic AI for Multimodal-Guided Video Object Segmentation [14.877182670778284]
参照ベースのビデオオブジェクトは、外部キューでガイドされたきめ細かいセグメンテーション結果を生成する必要のあるマルチモーダル問題である。
ビジョン言語基礎モデルの最近の進歩は、トレーニングフリーアプローチへの有望な方向性を開いている。
本稿では,この課題を柔軟かつ適応的に解決する新しいエージェントシステムであるMulti-Modal Agentを提案する。
論文 参考訳(メタデータ) (2025-08-14T12:11:15Z) - Task-Adapter++: Task-specific Adaptation with Order-aware Alignment for Few-shot Action Recognition [33.22316608406554]
本稿では,画像エンコーダとテキストエンコーダのパラメータ効率を両立させる手法を提案する。
具体的には,画像エンコーダのタスク固有の適応を設計し,特徴抽出時に最も識別性の高い情報をよく認識できるようにする。
我々は,視覚的特徴を意味的記述と同じ時間的段階に存在するように積極的にマッピングする,革新的な細粒度クロスモーダルアライメント戦略を開発した。
論文 参考訳(メタデータ) (2025-05-09T12:34:10Z) - Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation [55.99632509895994]
マルチアスペクトセマンティックトークン化のための新しいアプローチであるLAMIAを紹介する。
単一の埋め込みを使用するRQ-VAEとは異なり、LAMIAは独立的でセマンティックな並列な埋め込みの集合である「アイテムパレット」を学習する。
その結果,提案手法よりも提案手法の精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning [40.972648044298374]
MLLM(Multi-Modal Large Language Models)は様々なVQAタスクにおいて顕著な性能を示す。
解釈可能性に欠け、複雑な視覚的な入力に苦しむことが多い。
438k問合せ対からなる大規模Visual CoTデータセットを提案する。
視覚的な入力を動的に重視し,解釈可能な思考を提供するマルチターン処理パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-25T17:59:23Z) - Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。