論文の概要: ModalPrompt: Towards Efficient Multimodal Continual Instruction Tuning with Dual-Modality Guided Prompt
- arxiv url: http://arxiv.org/abs/2410.05849v2
- Date: Mon, 25 Aug 2025 05:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.035883
- Title: ModalPrompt: Towards Efficient Multimodal Continual Instruction Tuning with Dual-Modality Guided Prompt
- Title(参考訳): ModalPrompt: Dual-Modality Guided Promptによる効率的なマルチモーダルインストラクションチューニングを目指して
- Authors: Fanhu Zeng, Fei Zhu, Haiyang Guo, Xu-Yao Zhang, Cheng-Lin Liu,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、混合命令データセットを学習することで、顕著なマルチタスク能力を示す。
既存のMCITメソッドはLMMのユニークな属性を完全に活用していない。
本稿では,従来の知識の忘れを効果的に緩和する,MCITのための新しい素早い学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 51.71932333475573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) exhibit remarkable multi-tasking ability by learning mixed instruction datasets. However, novel tasks would be encountered sequentially in dynamic world, which urges for equipping LMMs with multimodal continual instruction learning (MCIT) ability especially for diverse and challenging generative tasks. Existing MCIT methods do not fully exploit the unique attribute of LMMs and often gain performance at the expense of efficiency. In this paper, we propose a novel prompt learning framework for MCIT to effectively alleviate forgetting of previous knowledge while managing computational complexity with natural image-text supervision. Concretely, we learn prompts for each task and exploit efficient prompt fusion for knowledge transfer and prompt selection for complexity management with dual-modality guidance. Extensive experiments demonstrate that our approach achieves substantial +14.26% performance gain on MCIT benchmarks with remarkable $\times$ 1.42 inference speed free from growing computation. Code is available at https://github.com/AuroraZengfh/ModalPrompt.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、混合命令データセットを学習することで、顕著なマルチタスク能力を示す。
しかし、新しいタスクは、特に多様で挑戦的な生成タスクのために、LMMにMCIT(Multimodal continual instruction learning)能力を持たせることを促す動的世界で順次発生する。
既存のMCIT法はLMMのユニークな特性を完全に活用せず、効率を犠牲にして性能を得ることが多い。
本稿では,従来の知識の忘れを効果的に軽減し,自然な画像テキスト管理による計算複雑性を管理しながら,MCITのための新しい学習フレームワークを提案する。
具体的には、各タスクのプロンプトを学習し、知識伝達のための効率的なプロンプト融合と、二重モダリティガイダンスによる複雑性管理のためのプロンプト選択を利用する。
大規模な実験により,MCIT ベンチマークでは,計算量の増加を伴わずに1.42 の推論速度で,14.26% の性能向上を達成した。
コードはhttps://github.com/AuroraZengfh/ModalPrompt.comで入手できる。
関連論文リスト
- Modality-Inconsistent Continual Learning of Multimodal Large Language Models [37.15220266767881]
マルチモーダル大言語モデル(MLLM)のための新しい連続学習シナリオであるMICL(Modality-Inconsistent Continual Learning)を導入する。
既存の視覚のみやモダリティの増分設定とは異なり、MICLはモダリティとタスクタイプのシフトを組み合わせており、どちらも破滅的な忘れを招いている。
本稿では, Pseudo Targets Generation Module を用いて, 以前見られたタスクタイプシフトによる忘れを軽減した MoInCL を提案する。
論文 参考訳(メタデータ) (2024-12-17T16:13:56Z) - LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant [63.28378110792787]
LamRAは大規模マルチモーダルモデルに高度な検索と再ランク機能を持たせるために設計された多機能フレームワークである。
検索には、言語のみの事前学習とマルチモーダル・インストラクション・チューニングからなる2段階のトレーニング戦略を採用する。
再格付けには、ポイントワイドとリストワイドの両方のジョイントトレーニングを採用し、検索性能をさらに向上させる2つの方法を提供している。
論文 参考訳(メタデータ) (2024-12-02T17:10:16Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Continual Instruction Tuning for Large Multimodal Models [30.438442723421556]
マルチタスク・ジョイント・インストラクション・チューニングはモデルの連続的な学習能力と忘れ忘れを促進させる。
LMMの連続的命令チューニングのためのタスク類似性インフォームド正規化とモデル拡張法を提案する。
論文 参考訳(メタデータ) (2023-11-27T15:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。