論文の概要: Dynamic Cross-Modal Prompt Generation for Multimodal Continual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2605.10765v1
- Date: Mon, 11 May 2026 15:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.962443
- Title: Dynamic Cross-Modal Prompt Generation for Multimodal Continual Instruction Tuning
- Title(参考訳): マルチモーダルインストラクションチューニングのための動的クロスモーダルプロンプト生成
- Authors: Tao Hu, Da-Wei Zhou,
- Abstract要約: DRAPEは、MCITのために連続インスタンス固有のソフトプロンプトを合成するプロンプト学習フレームワークである。
DRAPEは、代表的なプロンプトベースとLoRAベースの連続学習ベースライン間の最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 13.499744113926505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) achieve strong performance through instruction tuning, yet real-world deployment often requires continual capability expansion across sequential tasks. In such scenarios, Multimodal Continual Instruction Tuning (MCIT) aims to acquire new capabilities while limiting catastrophic forgetting. Existing methods mainly follow a module-composition paradigm: they maintain task-level prompts or LoRA experts and dynamically route or aggregate a subset of them at inference. However, samples within the same task can still differ substantially in visual scenes, question intents, and reasoning demands. This motivates instance-level adaptation to individual query-image pairs rather than only selecting or combining task-level modules. To this end, we propose DRAPE (Dynamic Cross-Modal Prompt Generation), a prompt-learning framework that synthesizes continuous instance-specific soft prompts for MCIT. Instead of selecting prompts from a fixed pool, DRAPE derives prompt queries from the textual instruction and cross-attends to visual patch features, producing query-image conditioned prompts that are prepended to the frozen LLM. To mitigate forgetting during sequential updates, DRAPE applies null-space gradient projection to the shared projector and uses CLIP-based prototype routing for task-label-free generator selection at inference. Extensive experiments on MCIT benchmarks show that DRAPE achieves state-of-the-art performance among representative prompt-based and LoRA-based continual-learning baselines.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、命令チューニングによって高いパフォーマンスを達成するが、現実のデプロイメントでは、シーケンシャルタスク間で連続的な機能拡張を必要とすることが多い。
このようなシナリオでは、MCIT(Multimodal Continual Instruction Tuning)は、破滅的な忘れを抑えながら、新しい機能の獲得を目指している。
既存のメソッドは主にモジュール構成パラダイムに従っており、タスクレベルのプロンプトやLoRAの専門家を維持し、推論時にそのサブセットを動的にルートまたは集約する。
しかし、同じタスク内のサンプルは、視覚的なシーン、質問意図、推論要求において、依然として大きく異なる可能性がある。
これは、タスクレベルのモジュールを選択したり組み合わせたりするのではなく、個々のクエリイメージペアへのインスタンスレベルの適応を動機付ける。
そこで我々は,MCITのための連続インスタンス固有のソフトプロンプトを合成するプロンプト学習フレームワークであるDRAPE(Dynamic Cross-Modal Prompt Generation)を提案する。
固定プールからプロンプトを選択する代わりに、DRAPEはテキスト命令とクロスアタッチメントからビジュアルパッチ機能へのプロンプトクエリを導出し、フリーズされたLLMにプリフィックスされたクエリ-イメージ条件付きプロンプトを生成する。
逐次更新時の忘れを緩和するため、DRAPEは共有プロジェクタにnull空間勾配プロジェクションを適用し、CLIPベースのプロトタイプルーティングを使用して推論時にタスクラベルなしジェネレータの選択を行う。
MCITベンチマークの大規模な実験は、DRAPEが代表的プロンプトベースとLoRAベースの連続学習ベースラインで最先端のパフォーマンスを達成することを示している。
関連論文リスト
- AR-MOT: Autoregressive Multi-object Tracking [56.09738000988466]
本稿では,大規模言語モデル(LLM)フレームワーク内のシーケンス生成タスクとしてMOTを定式化する,新しい自己回帰パラダイムを提案する。
この設計により、タスク固有のヘッドを必要とせずに、フレキシブルなシーケンス構成によって構造化された結果を出力できる。
地域レベルの視覚知覚を高めるために,事前訓練された検出器に基づくオブジェクト・トケナイザを導入する。
論文 参考訳(メタデータ) (2026-01-05T09:17:28Z) - Teaching Prompts to Coordinate: Hierarchical Layer-Grouped Prompt Tuning for Continual Learning [69.17264556340244]
連続学習のための階層型階層型プロンプトチューニング手法を提案する。
i) 同じグループの層がほぼ同じプロンプトを共有し、位置符号化によって調整される。
単一のタスク固有のルートプロンプトを使用して、各レイヤグループのサブプロンプトを生成する。
論文 参考訳(メタデータ) (2025-11-15T08:15:51Z) - TemPrompt: Multi-Task Prompt Learning for Temporal Relation Extraction in RAG-based Crowdsourcing Systems [21.312052922118585]
時間的関係抽出(TRE)は、出来事や行動の進化を把握し、関連するタスクのワークフローを形成することを目的としている。
本稿では,TRE(TemPrompt)のためのマルチタスク・プロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-21T01:52:37Z) - Fine-tuning Large Language Models with Sequential Instructions [2.546845645875049]
既存の命令調整モデルでは、複数の命令でクエリに応答するのに苦労していることがわかった。
我々は、微調整データの一部がシーケンシャルに関連したタスクの連鎖を含むべきであると論じる。
既存のデータセットの命令を多種多様な複雑なシーケンシャルな命令に変換することで、このプロセスを自動化する。
逐次指導チューニングを行ったモデルでは、符号化、数学、オープンエンド生成の結果が改善された。
論文 参考訳(メタデータ) (2024-03-12T16:33:30Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Prompting Decision Transformer for Few-Shot Policy Generalization [98.0914217850999]
本稿では,オフラインRLにおける少数ショット適応を実現するために,Prompt-based Decision Transformer (Prompt-DT)を提案する。
Prompt-DTは、目に見えないターゲットタスクを微調整することなく、強力な数発の学習者である。
論文 参考訳(メタデータ) (2022-06-27T17:59:17Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。