論文の概要: Continual Instruction Tuning for Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2311.16206v1
- Date: Mon, 27 Nov 2023 15:04:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:45:08.939016
- Title: Continual Instruction Tuning for Large Multimodal Models
- Title(参考訳): 大規模マルチモーダルモデルの連続的指導チューニング
- Authors: Jinghan He, Haiyun Guo, Ming Tang, Jinqiao Wang
- Abstract要約: マルチタスク・ジョイント・インストラクション・チューニングはモデルの連続的な学習能力と忘れ忘れを促進させる。
LMMの連続的命令チューニングのためのタスク類似性インフォームド正規化とモデル拡張法を提案する。
- 参考スコア(独自算出の注目度): 30.438442723421556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning is now a widely adopted approach to aligning large
multimodal models (LMMs) to follow human intent. It unifies the data format of
vision-language tasks, enabling multi-task joint training. However,
vision-language tasks are constantly being created in practice. Instead of
always re-training LMMs when new tasks arrive, continual learning offers
flexibility for models to continually and efficiently exploit the evolving
data. This work aims to explore the following two questions: 1) Do LMMs still
suffer from catastrophic forgetting in continual instruction tuning? 2) Are the
existing three classes of continual learning methods still applicable to the
continual instruction tuning of LMMs? An extensive study is conducted to
address the above questions. First, we establish the first benchmark in this
setting and reveal that catastrophic forgetting is still observed when
continually instruction-tuning LMMs. However, the multi-task joint instruction
tuning can facilitate the model's continual learning ability and mitigate
forgetting. Second, we integrate and adapt classic continual learning methods
to our context, demonstrating the efficacy of data replay and model expansion
strategies across diverse scenarios. In contrast, regularization-based methods
only perform well on models that have been jointly instruction-tuned on
multiple tasks. Third, we delve into the correlation and forgetting dynamics
between vision-language task pairs and propose task-similarity-informed
regularization and model expansion methods for continual instruction tuning of
LMMs. Experimental results show that our approach consistently boosts the
model's performance.
- Abstract(参考訳): インストラクションチューニングは、人間の意図に従うために大規模なマルチモーダルモデル(LMM)を整列させるアプローチとして広く採用されている。
視覚言語タスクのデータフォーマットを統一し、マルチタスク合同トレーニングを可能にする。
しかし、視覚言語タスクは実践的に常に作成されている。
新しいタスクが到着すると、常にLMMを再トレーニングする代わりに、継続学習は、進化するデータを継続的に効率的に活用するモデルに柔軟性を提供する。
この研究の目的は次の2つの質問を探求することである。
1)LMMは相変わらず連続的指導調律における破滅的な忘れ込みに悩まされているか?
2)既存の3つの連続学習手法は,LMMの連続的指導チューニングに適用できるのか?
上記の問題に対処するために広範な研究が行われている。
まず、この設定で最初のベンチマークを確立し、連続的な命令調整 LMM において破滅的な忘れがまだ観察されていることを示す。
しかし、マルチタスク・ジョイント・インストラクション・チューニングにより、モデルの連続学習能力が向上し、忘れを軽減できる。
第2に,従来の連続学習手法をコンテキストに統合・適応し,さまざまなシナリオにわたるデータリプレイとモデル拡張戦略の有効性を示す。
対照的に、正規化に基づく手法は、複数のタスクで共同で訓練されたモデルでのみうまく機能する。
第3に、視覚言語タスクペア間の相関やダイナミクスを忘れ、タスク類似性インフォームド正規化とLMMの連続的な命令チューニングのためのモデル拡張手法を提案する。
実験の結果,本手法はモデルの性能を一貫して向上させることがわかった。
関連論文リスト
- Separable Mixture of Low-Rank Adaptation for Continual Visual Instruction Tuning [16.873306091966693]
視覚的インストラクションチューニングにより、大規模な言語モデル(MLLM)は、言語ベースのインストラクションとしてフレーミングすることで、幅広い視覚タスクを処理できる。
CVITでは,MLLMが学習した視覚的理解を忘れると同時に,学習能力の低下を経験する。
本稿では2つの異なるモジュール間の分離可能なルーティングを利用するSMOLoRAフレームワークについて紹介する。
このデュアルルーチン設計により、両方のドメインに特別な適応が可能となり、性能を改善しながら、忘れることを防ぐことができる。
論文 参考訳(メタデータ) (2024-11-21T09:00:15Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - ATLAS: Adapter-Based Multi-Modal Continual Learning with a Two-Stage Learning Strategy [12.150065431702055]
本稿では,経験ベース学習と新規知識拡張からなるマルチモーダル連続学習手法を提案する。
提案手法は,従来のタスクを忘れることによる負の影響を最小限に抑えつつ,上流での表現の分布を拡大する。
論文 参考訳(メタデータ) (2024-10-14T13:29:42Z) - ModalPrompt:Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models [40.7613157799378]
大規模マルチモーダルモデル(LMM)は、混合データセットを共同で学習することで、顕著なマルチタスク能力を示す。
既存の手法はデータ再生やモデル拡張を利用しており、どちらもLMM用に特別に開発されていない。
本稿では,マルチモーダル連続学習に適した新しいデュアルモーダル誘導型プロンプト学習フレームワーク(ModalPrompt)を提案する。
論文 参考訳(メタデータ) (2024-10-08T09:35:37Z) - M2Distill: Multi-Modal Distillation for Lifelong Imitation Learning [9.15567555909617]
M2Distillは、生涯の模倣学習のためのマルチモーダル蒸留に基づく方法である。
我々は、前段階から現在の段階まで、様々なモダリティにわたる潜在表現のシフトを規制する。
学習したポリシーが、新しいスキルをシームレスに統合しながら、以前に学習したタスクを実行する能力を維持していることを保証します。
論文 参考訳(メタデータ) (2024-09-30T01:43:06Z) - A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Enhancing Continual Learning in Visual Question Answering with Modality-Aware Feature Distillation [48.071162716120334]
入力のマルチモーダルな性質がモデルの学習力学に与える影響について検討する。
本研究の目的は, モダリティ対応型特徴蒸留 (MAFED) 方式を提案することである。
論文 参考訳(メタデータ) (2024-06-27T16:12:57Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [121.23360004498893]
逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。
CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。
従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
論文 参考訳(メタデータ) (2024-03-13T08:54:31Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。