論文の概要: Recasting Continual Learning as Sequence Modeling
- arxiv url: http://arxiv.org/abs/2310.11952v2
- Date: Sun, 14 Jan 2024 13:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 01:10:51.376716
- Title: Recasting Continual Learning as Sequence Modeling
- Title(参考訳): シーケンスモデリングとしての連続学習の再キャスト
- Authors: Soochan Lee, Jaehyeon Son, Gunhee Kim
- Abstract要約: 本稿では,連続学習をシーケンスモデリング問題として定式化することを提案する。
メタ連続学習(MCL)フレームワークを採用することで、メタレベルでシーケンスモデルをトレーニングすることができる。
分類と回帰の両方を網羅した7つのベンチマーク実験により、シーケンスモデルが一般的なMCLにとって魅力的な解であることを示す。
- 参考スコア(独自算出の注目度): 44.437160324905726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we aim to establish a strong connection between two significant
bodies of machine learning research: continual learning and sequence modeling.
That is, we propose to formulate continual learning as a sequence modeling
problem, allowing advanced sequence models to be utilized for continual
learning. Under this formulation, the continual learning process becomes the
forward pass of a sequence model. By adopting the meta-continual learning (MCL)
framework, we can train the sequence model at the meta-level, on multiple
continual learning episodes. As a specific example of our new formulation, we
demonstrate the application of Transformers and their efficient variants as MCL
methods. Our experiments on seven benchmarks, covering both classification and
regression, show that sequence models can be an attractive solution for general
MCL.
- Abstract(参考訳): 本研究では,連続学習とシーケンスモデリングという,機械学習研究の2つの重要な分野の強い関係を確立することを目的とする。
すなわち,連続学習をシーケンスモデリング問題として定式化し,連続学習に高度なシーケンスモデルを活用することを提案する。
この定式化の下では、連続学習プロセスがシーケンスモデルの前方通過となる。
メタcontinual Learning(MCL)フレームワークを採用することで、複数の連続学習エピソードに基づいて、メタレベルでシーケンスモデルをトレーニングすることができる。
新しい定式化の具体例として、トランスフォーマーとその効率的な変種をmcl法として応用することを示す。
分類と回帰の両方を網羅した7つのベンチマーク実験により、シーケンスモデルが一般的なMCLにとって魅力的な解であることを示す。
関連論文リスト
- Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - Enhancing Continual Learning in Visual Question Answering with Modality-Aware Feature Distillation [48.071162716120334]
入力のマルチモーダルな性質がモデルの学習力学に与える影響について検討する。
本研究の目的は, モダリティ対応型特徴蒸留 (MAFED) 方式を提案することである。
論文 参考訳(メタデータ) (2024-06-27T16:12:57Z) - State Soup: In-Context Skill Learning, Retrieval and Mixing [22.485700977542127]
新しいタイプのゲート線形リカレントニューラルネットワークは、様々なシーケンスモデリング問題に対して最先端の性能に達した。
ここでは、パラメータによるモデルマージの成功に触発された、ステートフルシーケンスモデルの別の利点について検討する。
微調整学習と文脈内学習の並列性に基づいて、内部状態を記憶、検索、線形結合が可能なタスクベクトルとして扱うことができるかどうかを検討する。
論文 参考訳(メタデータ) (2024-06-12T17:06:07Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Continual Instruction Tuning for Large Multimodal Models [30.438442723421556]
マルチタスク・ジョイント・インストラクション・チューニングはモデルの連続的な学習能力と忘れ忘れを促進させる。
LMMの連続的命令チューニングのためのタスク類似性インフォームド正規化とモデル拡張法を提案する。
論文 参考訳(メタデータ) (2023-11-27T15:04:48Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Learning continuous models for continuous physics [94.42705784823997]
本研究では,科学技術応用のための機械学習モデルを検証する数値解析理論に基づくテストを開発する。
本研究は,従来のMLトレーニング/テスト手法と一体化して,科学・工学分野におけるモデルの検証を行う方法である。
論文 参考訳(メタデータ) (2022-02-17T07:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。