論文の概要: Remembering Transformer for Continual Learning
- arxiv url: http://arxiv.org/abs/2404.07518v3
- Date: Thu, 16 May 2024 00:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 18:35:17.336559
- Title: Remembering Transformer for Continual Learning
- Title(参考訳): 連続学習用変圧器の思い出
- Authors: Yuwei Sun, Ippei Fujisawa, Arthur Juliani, Jun Sakuma, Ryota Kanai,
- Abstract要約: 本稿では,脳の補足学習システムにインスパイアされたリマインドトランスフォーマーを提案する。
覚えておくTransformerは、アダプタの混合アーキテクチャと、生成モデルに基づく新規性検出機構を採用している。
本研究は, 新奇性検出機構のアブレーション研究や, 適応剤のモデルキャパシティなど, 広範囲にわたる実験を行った。
- 参考スコア(独自算出の注目度): 9.879896956915598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks encounter the challenge of Catastrophic Forgetting (CF) in continual learning, where new task learning interferes with previously learned knowledge. Existing data fine-tuning and regularization methods necessitate task identity information during inference and cannot eliminate interference among different tasks, while soft parameter sharing approaches encounter the problem of an increasing model parameter size. To tackle these challenges, we propose the Remembering Transformer, inspired by the brain's Complementary Learning Systems (CLS). Remembering Transformer employs a mixture-of-adapters architecture and a generative model-based novelty detection mechanism in a pretrained Transformer to alleviate CF. Remembering Transformer dynamically routes task data to the most relevant adapter with enhanced parameter efficiency based on knowledge distillation. We conducted extensive experiments, including ablation studies on the novelty detection mechanism and model capacity of the mixture-of-adapters, in a broad range of class-incremental split tasks and permutation tasks. Our approach demonstrated SOTA performance surpassing the second-best method by 15.90% in the split tasks, reducing the memory footprint from 11.18M to 0.22M in the five splits CIFAR10 task.
- Abstract(参考訳): ニューラルネットワークは、新しいタスク学習が以前学んだ知識に干渉する連続学習において、カタストロフィック・フォーッティング(CF)の課題に直面している。
既存のデータ微調整法と正規化法では、推論中にタスク識別情報を必要とせず、異なるタスク間の干渉を排除できないが、ソフトパラメータ共有手法ではモデルパラメータサイズが大きくなるという問題に遭遇する。
これらの課題に対処するため,脳のComplementary Learning Systems (CLS) にインスパイアされたRemembering Transformerを提案する。
覚えておく Transformer は、CF を緩和するために、事前訓練された Transformer に、適応型アーキテクチャと生成モデルに基づく新規性検出機構を取り入れている。
Transformerは、知識蒸留に基づくパラメータ効率の向上により、タスクデータを最も関連性の高いアダプタに動的にルーティングする。
本研究は,新奇性検出機構とアダプタのモデル容量に関するアブレーション実験を含む広範囲な実験を行い,クラス増分タスクと置換タスクについて検討した。
CIFAR10タスクのメモリフットプリントを11.18Mから0.22Mに削減した。
関連論文リスト
- Replacement Learning: Training Vision Tasks with Fewer Learnable Parameters [4.2114456503277315]
置換学習は、冷凍層の全パラメータを2つの学習可能なパラメータで置き換える。
CIFAR-10, STL-10, SVHN, ImageNetの4つのベンチマークデータセットを対象に実験を行った。
提案手法は,エンドツーエンドトレーニングの性能を完全に超えながら,パラメータ数,トレーニング時間,メモリ使用量を削減する。
論文 参考訳(メタデータ) (2024-10-02T05:03:54Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Dynamic Transformer Architecture for Continual Learning of Multimodal
Tasks [27.59758964060561]
トランスフォーマーニューラルネットワークは、さまざまなデータモダリティの幅広いアプリケーションにおいて、以前のアーキテクチャを置き換える傾向にある。
連続学習(CL)は、自律学習エージェントに順次到着するタスク間で知識の伝達を容易にすることで、ソリューションとして現れる。
本稿では,視覚と言語の両方に関わる学習タスクに着目したトランスフォーマーベースのCLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-27T03:03:30Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Multi Self-supervised Pre-fine-tuned Transformer Fusion for Better
Intelligent Transportation Detection [0.32634122554914]
インテリジェントトランスポートシステムは、高度な情報技術を組み合わせて、監視、検出、そして現代の交通に対する早期警告のようなインテリジェントなサービスを提供する。
知的輸送における既存の検出方法は2つの側面に制限されている。
まず、大規模データセット上で事前訓練されたモデル知識と、ターゲットタスクに必要な知識との間には違いがある。
第二に、ほとんどの検出モデルは、学習能力を制限する単一ソース学習のパターンに従う。
論文 参考訳(メタデータ) (2023-10-17T14:32:49Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Knowledge Amalgamation for Object Detection with Transformers [36.7897364648987]
ナレッジ・アマルガメーション (Knowledge Amalgamation, KA) は、数名の訓練を受けた教師から小学生に知識を伝達することを目的とした、新しいディープ・モデル・リユース・タスクである。
我々は,KAをシーケンスレベル・アマルガメーション(SA)とタスクレベル・アマルガメーション(TA)の2つの側面に分解することを提案する。
特に、教師シーケンスを固定サイズのものに冗長に集約する代わりに、教師シーケンスを連結することにより、シーケンスレベルのアマルガメーション内でヒントを生成する。
論文 参考訳(メタデータ) (2022-03-07T07:45:22Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。