論文の概要: MagMax: Leveraging Model Merging for Seamless Continual Learning
- arxiv url: http://arxiv.org/abs/2407.06322v2
- Date: Mon, 29 Jul 2024 22:17:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 21:23:40.294512
- Title: MagMax: Leveraging Model Merging for Seamless Continual Learning
- Title(参考訳): MagMax: シームレスな継続的学習のためのモデルマージの活用
- Authors: Daniel Marczak, Bartłomiej Twardowski, Tomasz Trzciński, Sebastian Cygert,
- Abstract要約: 従来の連続学習法とは違い、MagMaxは逐次微調整と最大等級の重み選択を組み合わせる。
我々は、連続タスクのための大規模事前学習モデルの連続学習を可能にする新しいモデル統合戦略であるMagMaxを提案する。
- 参考スコア(独自算出の注目度): 1.0030878538350796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a continual learning approach named MagMax, which utilizes model merging to enable large pre-trained models to continuously learn from new data without forgetting previously acquired knowledge. Distinct from traditional continual learning methods that aim to reduce forgetting during task training, MagMax combines sequential fine-tuning with a maximum magnitude weight selection for effective knowledge integration across tasks. Our initial contribution is an extensive examination of model merging techniques, revealing that simple approaches like weight averaging and random weight selection surprisingly hold up well in various continual learning contexts. More importantly, we present MagMax, a novel model-merging strategy that enables continual learning of large pre-trained models for successive tasks. Our thorough evaluation demonstrates the superiority of MagMax in various scenarios, including class- and domain-incremental learning settings. The code is available at this URL: https://github.com/danielm1405/magmax.
- Abstract(参考訳): 本稿では,MagMaxというモデルマージを利用した連続学習手法を提案する。この手法は,既存の知識を忘れずに,大規模な事前学習モデルで新しいデータから連続的に学習することを可能にする。
MagMaxは、タスクトレーニング中の忘れを減らすことを目的とした従来の連続学習方法とは違い、シーケンシャルな微調整と最大等級の重み選択を組み合わせることで、タスク間の効果的な知識統合を実現する。
最初のコントリビューションはモデルマージ手法の広範な検証であり、平均ウェイトやランダムウェイト選択といった単純なアプローチが、様々な連続的な学習コンテキストにおいて驚くほどうまく機能することを示した。
より重要なことは、連続タスクのための大規模な事前学習モデルの継続的な学習を可能にする新しいモデル統合戦略であるMagMaxを提案することである。
我々は,MagMaxのクラスおよびドメイン増分学習設定など,様々なシナリオにおける優位性を徹底的に評価した。
このURLはhttps://github.com/danielm1405/magmax.com/で公開されている。
関連論文リスト
- Dynamic Self-adaptive Multiscale Distillation from Pre-trained Multimodal Large Model for Efficient Cross-modal Representation Learning [12.00246872965739]
本稿では,事前学習型マルチモーダル大モデルを用いた動的自己適応型マルチスケール蒸留法を提案する。
我々の戦略は、事前訓練されたマルチモーダル大モデルから構造的知識を抽出できる、マルチスケールな視点を用いている。
提案手法は,出力特徴とオリジナル画像レベル情報のみを用いて,事前学習したマルチモーダル大規模モデルを合理化する。
論文 参考訳(メタデータ) (2024-04-16T18:22:49Z) - H-ensemble: An Information Theoretic Approach to Reliable Few-Shot
Multi-Source-Free Transfer [4.328706834250445]
本稿では,対象タスクに対するソースモデルの最適線形結合を学習するHアンサンブル(H-ensemble)というフレームワークを提案する。
H-アンサンブルは,1)少数の目標タスクに対する新しいMSF設定への適応性,2)理論的信頼性,3)解釈や適応が容易な軽量構造を特徴とする。
我々は,Hアンサンブルが最適なタスクアンサンブルを学習し,先行技術より優れていることを示す。
論文 参考訳(メタデータ) (2023-12-19T17:39:34Z) - Continual Instruction Tuning for Large Multimodal Models [30.438442723421556]
マルチタスク・ジョイント・インストラクション・チューニングはモデルの連続的な学習能力と忘れ忘れを促進させる。
LMMの連続的命令チューニングのためのタスク類似性インフォームド正規化とモデル拡張法を提案する。
論文 参考訳(メタデータ) (2023-11-27T15:04:48Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Towards Balanced Active Learning for Multimodal Classification [15.338417969382212]
マルチモーダルネットワークのトレーニングには、ユニモーダルネットワークと比較してパラメータ空間が大きいため、膨大な量のデータが必要である。
アクティブラーニングは、モデルの性能向上に寄与するサンプルのみを選択することで、データアノテーションコストを削減するために広く使われているテクニックである。
現在のアクティブラーニング戦略は、主に一助的なタスクのために設計されており、マルチモーダルデータに適用すると、支配的なモダリティからのサンプル選択にバイアスがかかることがしばしばある。
論文 参考訳(メタデータ) (2023-06-14T07:23:36Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Modeling Token-level Uncertainty to Learn Unknown Concepts in SLU via
Calibrated Dirichlet Prior RNN [98.4713940310056]
現代パーソナルアシスタントにおける音声言語理解(SLU)の主な課題は、発話から意味概念を抽出することである。
最近の研究では、疑問と回答を収集し、未知のデータを学習し、質問すべきである。
疑わしい監督なしにシーケンスの不確かさをモデル化するために、ソフトマックスベースのスロット充填ニューラルネットワークアーキテクチャを組み込んだ。
論文 参考訳(メタデータ) (2020-10-16T02:12:30Z) - Margin Maximization as Lossless Maximal Compression [0.3007949058551534]
分類において、可能な限り多くのトレーニング例を最大限の信頼性で正しく分類する機能的マージンは、優れた一般化保証を持つモデルを構築することが知られている。
この研究は、雑音のないデータセットを最大限に圧縮するものとして、マージンを最大化する情報理論的な解釈を与える。
論文 参考訳(メタデータ) (2020-01-28T13:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。