Fugu-MT 論文翻訳(概要): ModalPrompt:Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models

論文の概要: ModalPrompt:Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models

arxiv url: http://arxiv.org/abs/2410.05849v1
Date: Tue, 8 Oct 2024 09:35:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 12:30:00.629442
Title: ModalPrompt:Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models
Title（参考訳）: ModalPrompt:大規模マルチモーダルモデルの連続学習のためのDual-Modality Guided Prompt
Authors: Fanhu Zeng, Fei Zhu, Haiyang Guo, Xu-Yao Zhang, Cheng-Lin Liu,
Abstract要約: 大規模マルチモーダルモデル(LMM)は、混合データセットを共同で学習することで、顕著なマルチタスク能力を示す。既存の手法はデータ再生やモデル拡張を利用しており、どちらもLMM用に特別に開発されていない。本稿では,マルチモーダル連続学習に適した新しいデュアルモーダル誘導型プロンプト学習フレームワーク(ModalPrompt)を提案する。
参考スコア（独自算出の注目度）: 40.7613157799378
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Multimodal Models (LMMs) exhibit remarkable multi-tasking ability by learning mixed datasets jointly. However, novel tasks would be encountered sequentially in dynamic world, and continually fine-tuning LMMs often leads to performance degrades. To handle the challenges of catastrophic forgetting, existing methods leverage data replay or model expansion, both of which are not specially developed for LMMs and have their inherent limitations. In this paper, we propose a novel dual-modality guided prompt learning framework (ModalPrompt) tailored for multimodal continual learning to effectively learn new tasks while alleviating forgetting of previous knowledge. Concretely, we learn prototype prompts for each task and exploit efficient prompt selection for task identifiers and prompt fusion for knowledge transfer based on image-text supervision. Extensive experiments demonstrate the superiority of our approach, e.g., ModalPrompt achieves +20% performance gain on LMMs continual learning benchmarks with $\times$ 1.42 inference speed refraining from growing training cost in proportion to the number of tasks. The code will be made publically available.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)は、混合データセットを共同で学習することで、顕著なマルチタスク能力を示す。しかし、新しいタスクは動的世界で順次発生し、連続的に微調整されたLMMは、しばしば性能の低下につながる。破滅的な忘れ込みの課題に対処するため、既存の手法はデータリプレイやモデル拡張を利用しており、どちらもLMM用に特別に開発されておらず、固有の制限がある。本稿では,従来の知識の忘れを軽減しつつ,新たなタスクを効果的に学習するために,マルチモーダル連続学習に適した新しいデュアルモーダル指導型プロンプト学習フレームワーク(ModalPrompt)を提案する。具体的には、各タスクのプロトタイププロンプトを学習し、タスク識別子の効率的なプロンプト選択と、画像テキストの監督に基づく知識伝達のプロンプトを利用する。例えば、ModalPromptは、LMMの連続学習ベンチマークにおいて、タスク数に比例してトレーニングコストの増加を控えた1.42ドルの推論速度で、20%以上のパフォーマンス向上を実現している。コードは一般公開される予定だ。

関連論文リスト

NTKMTL: Mitigating Task Imbalance in Multi-Task Learning from Neural Tangent Kernel Perspective [58.345210583013454]
マルチタスク学習(MTL)は、1つのモデルで複数のタスクを同時に学習することを可能にする。 MTLにおけるタスクの不均衡は依然として大きな課題である。 NTKMTL という新しい MTL 法を提案し,MTL のトレーニングダイナミクスを解析する。
論文参考訳（メタデータ） (2025-10-21T03:29:40Z)
MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。 5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文参考訳（メタデータ） (2025-08-13T13:00:05Z)
TEM^3-Learning: Time-Efficient Multimodal Multi-Task Learning for Advanced Assistive Driving [22.22943635900334]
TEM3-Learningは、ドライバーの感情認識、運転者行動認識、交通状況認識、車両行動認識を共同で最適化する新しいフレームワークである。 4つのタスクにまたがって最先端の精度を実現し、600万パラメータ未満の軽量アーキテクチャを維持し、142.32 FPSの推論速度を実現している。
論文参考訳（メタデータ） (2025-06-22T16:12:27Z)
Mixture-of-Experts Meets In-Context Reinforcement Learning [49.19791753312034]
In-context reinforcement learning (ICRL)は、下流タスクにRLエージェントを適用するための有望なパラダイムとして登場した。本稿では,Mix-of-Experts (MoE) のアーキテクチャをトランスフォーマーに基づく決定モデルに導入する,革新的なフレームワークであるT2MIRを提案する。本稿では,T2MIRがテキスト内学習能力を大幅に向上させ,各種ベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-05T06:29:14Z)
Modality-Inconsistent Continual Learning of Multimodal Large Language Models [37.15220266767881]
マルチモーダル大言語モデル(MLLM)のための新しい連続学習シナリオであるMICL(Modality-Inconsistent Continual Learning)を導入する。既存の視覚のみやモダリティの増分設定とは異なり、MICLはモダリティとタスクタイプのシフトを組み合わせており、どちらも破滅的な忘れを招いている。本稿では, Pseudo Targets Generation Module を用いて, 以前見られたタスクタイプシフトによる忘れを軽減した MoInCL を提案する。
論文参考訳（メタデータ） (2024-12-17T16:13:56Z)
LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant [63.28378110792787]
LamRAは大規模マルチモーダルモデルに高度な検索と再ランク機能を持たせるために設計された多機能フレームワークである。検索には、言語のみの事前学習とマルチモーダル・インストラクション・チューニングからなる2段階のトレーニング戦略を採用する。再格付けには、ポイントワイドとリストワイドの両方のジョイントトレーニングを採用し、検索性能をさらに向上させる2つの方法を提供している。
論文参考訳（メタデータ） (2024-12-02T17:10:16Z)
LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。 PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。 PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文参考訳（メタデータ） (2024-10-26T13:19:57Z)
MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。 MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文参考訳（メタデータ） (2024-08-07T02:28:37Z)
Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文参考訳（メタデータ） (2024-05-09T07:47:25Z)
Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文参考訳（メタデータ） (2024-01-16T08:44:29Z)
Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文参考訳（メタデータ） (2023-12-20T18:59:58Z)
MmAP : Multi-modal Alignment Prompt for Cross-domain Multi-task Learning [29.88567810099265]
マルチタスク学習は複数の相関タスクを同時に訓練するように設計されている。この課題に対処するために、デコーダフリーの視覚言語モデルCLIPを統合する。 CLIPのためのマルチモーダルアライメント・プロンプト(MmAP)を提案する。
論文参考訳（メタデータ） (2023-12-14T03:33:02Z)
Continual Instruction Tuning for Large Multimodal Models [30.438442723421556]
マルチタスク・ジョイント・インストラクション・チューニングはモデルの連続的な学習能力と忘れ忘れを促進させる。 LMMの連続的命令チューニングのためのタスク類似性インフォームド正規化とモデル拡張法を提案する。
論文参考訳（メタデータ） (2023-11-27T15:04:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。