論文の概要: Continual Instruction Tuning for Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2311.16206v1
- Date: Mon, 27 Nov 2023 15:04:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:45:08.939016
- Title: Continual Instruction Tuning for Large Multimodal Models
- Title(参考訳): 大規模マルチモーダルモデルの連続的指導チューニング
- Authors: Jinghan He, Haiyun Guo, Ming Tang, Jinqiao Wang
- Abstract要約: マルチタスク・ジョイント・インストラクション・チューニングはモデルの連続的な学習能力と忘れ忘れを促進させる。
LMMの連続的命令チューニングのためのタスク類似性インフォームド正規化とモデル拡張法を提案する。
- 参考スコア(独自算出の注目度): 30.438442723421556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning is now a widely adopted approach to aligning large
multimodal models (LMMs) to follow human intent. It unifies the data format of
vision-language tasks, enabling multi-task joint training. However,
vision-language tasks are constantly being created in practice. Instead of
always re-training LMMs when new tasks arrive, continual learning offers
flexibility for models to continually and efficiently exploit the evolving
data. This work aims to explore the following two questions: 1) Do LMMs still
suffer from catastrophic forgetting in continual instruction tuning? 2) Are the
existing three classes of continual learning methods still applicable to the
continual instruction tuning of LMMs? An extensive study is conducted to
address the above questions. First, we establish the first benchmark in this
setting and reveal that catastrophic forgetting is still observed when
continually instruction-tuning LMMs. However, the multi-task joint instruction
tuning can facilitate the model's continual learning ability and mitigate
forgetting. Second, we integrate and adapt classic continual learning methods
to our context, demonstrating the efficacy of data replay and model expansion
strategies across diverse scenarios. In contrast, regularization-based methods
only perform well on models that have been jointly instruction-tuned on
multiple tasks. Third, we delve into the correlation and forgetting dynamics
between vision-language task pairs and propose task-similarity-informed
regularization and model expansion methods for continual instruction tuning of
LMMs. Experimental results show that our approach consistently boosts the
model's performance.
- Abstract(参考訳): インストラクションチューニングは、人間の意図に従うために大規模なマルチモーダルモデル(LMM)を整列させるアプローチとして広く採用されている。
視覚言語タスクのデータフォーマットを統一し、マルチタスク合同トレーニングを可能にする。
しかし、視覚言語タスクは実践的に常に作成されている。
新しいタスクが到着すると、常にLMMを再トレーニングする代わりに、継続学習は、進化するデータを継続的に効率的に活用するモデルに柔軟性を提供する。
この研究の目的は次の2つの質問を探求することである。
1)LMMは相変わらず連続的指導調律における破滅的な忘れ込みに悩まされているか?
2)既存の3つの連続学習手法は,LMMの連続的指導チューニングに適用できるのか?
上記の問題に対処するために広範な研究が行われている。
まず、この設定で最初のベンチマークを確立し、連続的な命令調整 LMM において破滅的な忘れがまだ観察されていることを示す。
しかし、マルチタスク・ジョイント・インストラクション・チューニングにより、モデルの連続学習能力が向上し、忘れを軽減できる。
第2に,従来の連続学習手法をコンテキストに統合・適応し,さまざまなシナリオにわたるデータリプレイとモデル拡張戦略の有効性を示す。
対照的に、正規化に基づく手法は、複数のタスクで共同で訓練されたモデルでのみうまく機能する。
第3に、視覚言語タスクペア間の相関やダイナミクスを忘れ、タスク類似性インフォームド正規化とLMMの連続的な命令チューニングのためのモデル拡張手法を提案する。
実験の結果,本手法はモデルの性能を一貫して向上させることがわかった。
関連論文リスト
- Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Dual Instruction Tuning with Large Language Models for Mathematical Reasoning [26.00472810721806]
本稿では,前方方向と逆方向の両方から数学的推論をモデル化するための二重命令チューニング手法を提案する。
これには、中間推論状態予測タスク(フォワード推論)とインストラクション再構築タスク(リバース推論)を導入して、LCMの理解と命令の実行を強化することが含まれる。
総合的な実験は、様々な数学的推論タスクにまたがる二重命令チューニング戦略の有効性と領域一般化を検証した。
論文 参考訳(メタデータ) (2024-03-27T06:43:58Z) - CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large
Language Model [128.46104068327435]
逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。
CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。
従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
論文 参考訳(メタデータ) (2024-03-13T08:54:31Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Learning Modality-Specific Representations with Self-Supervised
Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。
我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。
提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-02-09T14:05:02Z) - Learning Invariant Representation for Continual Learning [5.979373021392084]
継続的学習の重要な課題は、エージェントが新しいタスクに直面したときに、以前に学んだタスクを壊滅的に忘れることです。
連続学習のための学習不変表現(IRCL)という新しい擬似リハーサル法を提案する。
共有不変表現を分離することは、タスクのシーケンスを継続的に学習するのに役立つ。
論文 参考訳(メタデータ) (2021-01-15T15:12:51Z) - Online Fast Adaptation and Knowledge Accumulation: a New Approach to
Continual Learning [74.07455280246212]
継続的な学習は、新しいタスクに適応しながら、以前のタスクを忘れずにタスクの流れから学ぶエージェントを研究する。
この新たなシナリオでは、現在の連続学習、メタ学習、メタ連続学習、および連続メタ学習技術が失敗することを示します。
本稿では,このシナリオの強力なベースラインとして,人気のあるMAMLアルゴリズムのオンライン拡張であるContinual-MAMLを提案する。
論文 参考訳(メタデータ) (2020-03-12T15:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。