論文の概要: ProtoAda: Prototype-Guided Adaptive Adapter Expansion and Geometric Consolidation for Multimodal Continual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2606.02576v1
- Date: Mon, 01 Jun 2026 17:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.568074
- Title: ProtoAda: Prototype-Guided Adaptive Adapter Expansion and Geometric Consolidation for Multimodal Continual Instruction Tuning
- Title(参考訳): ProtoAda:マルチモーダルインストラクションチューニングのためのプロトタイプ誘導適応アダプタ拡張と幾何学的統合
- Authors: Yu-Cheng Shi, Zhen-Hao Xie, Jun-Tao Tang, Da-Wei Zhou,
- Abstract要約: MLLM(Multimodal Large Language Models)は、命令チューニングによって高いパフォーマンスを達成するが、現実のデプロイメントでは、新たな視覚言語機能を取得する必要がある。
近年の手法では、画像-テキスト類似性ルーティングのMixture of LoRA Expertsのようなスパースアーキテクチャが採用されている。
プロトタイプ誘導適応チューニングフレームワークProtoAdaを提案する。
- 参考スコア(独自算出の注目度): 16.21619173438734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) achieve strong performance through instruction tuning, but real-world deployment requires them to continually acquire new vision-language capabilities, making Multimodal Continual Instruction Tuning (MCIT) essential. To reduce inter-task interference and promote collaboration, recent methods often employ sparse architectures like Mixture of LoRA Experts with image-text similarity routing. However, tasks with distinct response structures could share highly similar visual-linguistic semantics and thus be wrongly routed to the same expert; image-text similarity alone is insufficient for reliable task assignment. For example, an expert in a grounding task requiring coordinate prediction may be biased toward producing short textual answers after learning semantically similar VQA tasks. This format-blind task assignment integrates heterogeneous response types into shared parameters, inducing gradient interference and ineffective expert collaboration. To address this problem, we propose ProtoAda, a prototype-guided adaptive tuning framework. ProtoAda introduces format-aware task prototypes to align task assignment and routing with both task semantics and output structure, and further consolidates format-compatible updates in a geometry-aware manner to effectively reuse and progressively refine existing parameters. Extensive experiments on multiple benchmarks demonstrate that ProtoAda achieves superior performance, especially on tasks whose answer structures are easily corrupted by sequential tuning.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、命令チューニングによって強力なパフォーマンスを実現するが、実世界のデプロイメントでは、新たな視覚言語能力の獲得を継続的に必要としており、MCIT(Multimodal Continual Instruction Tuning)が不可欠である。
タスク間の干渉を減らし、コラボレーションを促進するため、最近の手法では、画像-テキスト類似性ルーティングを備えたLoRAエキスパートのMixtureのようなスパースアーキテクチャを用いることが多い。
しかし、異なる応答構造を持つタスクは、非常に類似した視覚言語的セマンティクスを共有し、したがって誤って同じ専門家にルーティングされる可能性があり、画像とテキストの類似性だけでは信頼性の高いタスク割り当てには不十分である。
例えば、座標予測を必要とする接地タスクの専門家は、意味論的に類似したVQAタスクを学んだ後、短いテキストの回答を生成することに偏りがある。
このフォーマットブルンドタスク割り当ては、異種応答型を共有パラメータに統合し、勾配干渉を誘導し、非効率な専門家協調を誘導する。
この問題に対処するため,プロトタイプ誘導適応チューニングフレームワークであるProtoAdaを提案する。
ProtoAdaは、タスクの割り当てとルーティングをタスクのセマンティクスと出力構造の両方と整合させるためのフォーマット対応タスクプロトタイプを導入し、さらに幾何対応の方法でフォーマット互換の更新を統合し、既存のパラメータを効果的に再利用し、徐々に洗練する。
複数のベンチマークでの大規模な実験により、ProtoAdaは、特に逐次チューニングによって解答構造が容易に破損するタスクにおいて、優れたパフォーマンスを達成することが示された。
関連論文リスト
- Semantically Structured Mixture-of-Experts for Compositional Robotic Manipulation [21.358519910897652]
拡散ベースのポリシーは、正確なロボット操作のための新しい標準を確立したが、重要なスケーラビリティのボトルネックに直面している。
合成ロボット操作のためのSMODP(Semantically Structured Mixture-of-Experts Diffusion Policy)を導入する。
提案手法は,パラメータ効率が大幅に向上したマルチタスクベンチマークにおいて,代表拡散とMoEベースのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2026-05-22T10:38:59Z) - AR-MOT: Autoregressive Multi-object Tracking [56.09738000988466]
本稿では,大規模言語モデル(LLM)フレームワーク内のシーケンス生成タスクとしてMOTを定式化する,新しい自己回帰パラダイムを提案する。
この設計により、タスク固有のヘッドを必要とせずに、フレキシブルなシーケンス構成によって構造化された結果を出力できる。
地域レベルの視覚知覚を高めるために,事前訓練された検出器に基づくオブジェクト・トケナイザを導入する。
論文 参考訳(メタデータ) (2026-01-05T09:17:28Z) - Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models [21.888139819188105]
LLaVA-CMoEは、大規模言語モデルの継続的な学習フレームワークである。
Probe-Guided Knowledge Extensionメカニズムは、いつ、どこで新しいエキスパートを追加するべきかを決定する。
Probabilistic Task Locatorは各タスクを専用軽量ルータに割り当てる。
論文 参考訳(メタデータ) (2025-03-27T07:36:11Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [42.61889428498378]
本稿では,複数目的の複数ショットタスクにおいて,事前学習した視覚言語モデルを協調的にチューニングする新しい手法を提案する。
我々は,SoftCPTがシングルタスクのプロンプトチューニング方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。