論文の概要: LLaCA: Multimodal Large Language Continual Assistant
- arxiv url: http://arxiv.org/abs/2410.10868v1
- Date: Tue, 08 Oct 2024 11:24:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:35.361598
- Title: LLaCA: Multimodal Large Language Continual Assistant
- Title(参考訳): LLaCA: マルチモーダル大規模言語継続アシスタント
- Authors: Jingyang Qiao, Zhizhong Zhang, Xin Tan, Yanyun Qu, Shouhong Ding, Yuan Xie,
- Abstract要約: MCIT(Multimodal Continual Instruction Tuning)は、MLLMにシーケンシャルデータセットにおける人間の意図に従うよう継続的に指示するために用いられる。
既存の勾配更新は、以前のデータセットのチューニング性能を著しく損なうことになる。
本稿では,この課題に対処するため,LLaCA (Multimodal Large Language Continual Assistant) という手法を提案する。
- 参考スコア(独自算出の注目度): 59.585544987096974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning guides the Multimodal Large Language Models (MLLMs) in aligning different modalities by designing text instructions, which seems to be an essential technique to enhance the capabilities and controllability of foundation models. In this framework, Multimodal Continual Instruction Tuning (MCIT) is adopted to continually instruct MLLMs to follow human intent in sequential datasets. We observe existing gradient update would heavily destroy the tuning performance on previous datasets and the zero-shot ability during continual instruction tuning. Exponential Moving Average (EMA) update policy owns the ability to trace previous parameters, which can aid in decreasing forgetting. However, its stable balance weight cannot deal with the ever-changing datasets, leading to the out-of-balance between plasticity and stability of MLLMs. In this paper, we propose a method called Multimodal Large Language Continual Assistant (LLaCA) to address the challenge. Starting from the trade-off prerequisite and EMA update, we propose the plasticity and stability ideal condition. Based on Taylor expansion in the loss function, we find the optimal balance weight is basically according to the gradient information and previous parameters. We automatically determine the balance weight and significantly improve the performance. Through comprehensive experiments on LLaVA-1.5 in a continual visual-question-answering benchmark, compared with baseline, our approach not only highly improves anti-forgetting ability (with reducing forgetting from 22.67 to 2.68), but also significantly promotes continual tuning performance (with increasing average accuracy from 41.31 to 61.89). Our code will be published soon.
- Abstract(参考訳): インストラクションチューニングは、基本モデルの能力と制御性を高めるために欠かせない技術であるように思われるテキスト命令を設計することで、異なるモダリティを整合させるためのMLLM(Multimodal Large Language Models)を導く。
このフレームワークでは、連続的なデータセットにおける人間の意図に従うようにMLLMに継続的に指示するために、MCIT(Multimodal Continual Instruction Tuning)が採用されている。
既存の勾配更新によって、前回のデータセットのチューニング性能と連続的なチューニングチューニング時のゼロショット能力が大幅に損なわれるのを観察する。
指数移動平均 (Exponential moving Average, EMA) 更新ポリシーは、過去のパラメータをトレースする機能を所有しており、忘れることを減らすのに役立つ。
しかし、その安定したバランスウェイトは、常に変化するデータセットに対処できないため、MLLMの可塑性と安定性のバランスが外れる。
本稿では,この課題に対処するため,LLaCA (Multimodal Large Language Continual Assistant) という手法を提案する。
トレードオフ前提条件とEMA更新から始めて,塑性と安定性の理想的な条件を提案する。
損失関数のテイラー展開に基づいて、最適バランスウェイトは基本的に勾配情報とそれ以前のパラメータに従っている。
我々は自動的にバランスウェイトを決定し、性能を大幅に改善する。
ベースラインと比較して,LLaVA-1.5の総合的な実験を通じて,提案手法はアンチフォッゲッティング能力(22.67から2.68に低下)を向上するだけでなく,継続チューニング性能(平均精度41.31から61.89に向上)を著しく向上させる。
私たちのコードはまもなく公開されるでしょう。
関連論文リスト
- Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。
適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。
我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文 参考訳(メタデータ) (2025-04-09T17:59:42Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - SAFE: Slow and Fast Parameter-Efficient Tuning for Continual Learning with Pre-Trained Models [26.484208658326857]
継続的な学習は、過去の知識を忘れることに抵抗しながら、データストリームにおける新しい概念を漸進的に獲得することを目的としている。
強力な事前学習モデル(PTM)の台頭に伴い、インクリメンタル学習システムのトレーニングへの関心が高まっている。
論文 参考訳(メタデータ) (2024-11-04T15:34:30Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
拡張一般化のための勾配を暗黙的に正規化するが、知識を保持するために微調整されたモデルや事前訓練されたモデルも暗黙的に整列する。
また、テキスト分類(GLUE)や数学的推論においてLoRAを改善している。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - Get Confused Cautiously: Textual Sequence Memorization Erasure with Selective Entropy Maximization [17.20276556057748]
大規模言語モデル(LLM)は、トレーニングセットの冗長性からいくつかのテキストシーケンスを暗記し、引用することが発見されている。
このTSM(Textual Sequence Memorization)現象は、特定の記憶されたテキストを生成するのを防ぐために、LCM出力の調整を要求される。
TSM消去のための既存の方法は、モデルユーティリティを実質的に損なうことなく、大量の記憶されたサンプルを忘れることができない。
論文 参考訳(メタデータ) (2024-08-09T10:26:11Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Improving Data-aware and Parameter-aware Robustness for Continual Learning [3.480626767752489]
本報告では, オフラヤの非効率な取扱いから, この不整合が生じることを解析する。
本稿では,ロバスト連続学習(RCL)手法を提案する。
提案手法は, 堅牢性を効果的に維持し, 新たなSOTA(State-of-the-art)結果を得る。
論文 参考訳(メタデータ) (2024-05-27T11:21:26Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large
Language Models [46.92994945808424]
マルチモーダル大言語モデル(MLLM)の微調整における破滅的忘れ込みの課題
本稿では,MLLMにおける破滅的忘れの包括的分析を行い,モデルタイラーと呼ばれるポストトレーニング調整手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T11:02:05Z) - Weighted Ensemble Models Are Strong Continual Learners [20.62749699589017]
本研究では,タスク列のモデル学習を目標とする連続学習(CL)の問題について検討する。
CLは基本的に、新しいタスクで学べることと、以前に学んだ概念でのパフォーマンスを維持することのバランスをとる行為である。
安定性と塑性のトレードオフに対処するため,従来の課題と現在の課題のモデルパラメータを重み付けする手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T14:26:57Z) - Dynamic Corrective Self-Distillation for Better Fine-Tuning of
Pretrained Models [0.9217021281095907]
プレトレーニング言語モデル(PLM)の伝達学習過程において発生する攻撃的微調整の問題に対処する。
従来の機械学習における適応的強化法に着想を得て,PLMの微調整を改善するための効果的な動的補正自己蒸留手法を提案する。
本手法は,各イテレーションにおいて,各データポイントに割り当てられた重みを動的に調整することにより,学生モデルが積極的に適応し,自己補正を行う自己蒸留機構を実行することを含む。
論文 参考訳(メタデータ) (2023-12-12T07:26:36Z) - Recyclable Tuning for Continual Pre-training [98.51583779792031]
継続事前学習は、学習済み言語モデル(PLM)が成長するデータから新たな知識を継続的に獲得し、徐々にアップグレードされるパラダイムである。
時代遅れの適応重量をリサイクルするための適切なアルゴリズムを開発するべきだと我々は主張する。
両手法が組み合わされ,性能が向上することを示す。
論文 参考訳(メタデータ) (2023-05-15T15:05:44Z) - Online Hyperparameter Optimization for Class-Incremental Learning [99.70569355681174]
クラス増分学習(Class-incremental Learning, CIL)は、クラス数がフェーズごとに増加する一方で、分類モデルを訓練することを目的としている。
CILの固有の課題は、安定性と塑性のトレードオフである。すなわち、CILモデルは古い知識を保ち、新しい知識を吸収するためにプラスチックを保たなければならない。
本稿では,事前設定を知らずにトレードオフを適応的に最適化するオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-11T17:58:51Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and
Strong Baselines [31.807628937487927]
BERTのような微調整済みの言語モデルは、様々なNLPベンチマークでリーダーボードを独占する一般的なプラクティスとなっている。
以前の文献では、破滅的な忘れ物と微調整データセットの小さなサイズの2つの潜在的な原因が明らかになった。
どちらの仮説も微調整の不安定性を説明できないことを示す。
論文 参考訳(メタデータ) (2020-06-08T19:06:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。