論文の概要: Transformers for Supervised Online Continual Learning
- arxiv url: http://arxiv.org/abs/2403.01554v1
- Date: Sun, 3 Mar 2024 16:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:00:16.833566
- Title: Transformers for Supervised Online Continual Learning
- Title(参考訳): オンライン継続学習のための変圧器
- Authors: Jorg Bornschein, Yazhe Li, Amal Rannen-Triki
- Abstract要約: オンライン連続学習に変換器のコンテキスト内学習機能を活用する手法を提案する。
本手法は,画像位置定位のための大規模実世界ベンチマークであるCLOCにおいて,過去の最先端結果よりも大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 11.270594318662233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have become the dominant architecture for sequence modeling
tasks such as natural language processing or audio processing, and they are now
even considered for tasks that are not naturally sequential such as image
classification. Their ability to attend to and to process a set of tokens as
context enables them to develop in-context few-shot learning abilities.
However, their potential for online continual learning remains relatively
unexplored. In online continual learning, a model must adapt to a
non-stationary stream of data, minimizing the cumulative nextstep prediction
loss. We focus on the supervised online continual learning setting, where we
learn a predictor $x_t \rightarrow y_t$ for a sequence of examples $(x_t,
y_t)$. Inspired by the in-context learning capabilities of transformers and
their connection to meta-learning, we propose a method that leverages these
strengths for online continual learning. Our approach explicitly conditions a
transformer on recent observations, while at the same time online training it
with stochastic gradient descent, following the procedure introduced with
Transformer-XL. We incorporate replay to maintain the benefits of multi-epoch
training while adhering to the sequential protocol. We hypothesize that this
combination enables fast adaptation through in-context learning and sustained
longterm improvement via parametric learning. Our method demonstrates
significant improvements over previous state-of-the-art results on CLOC, a
challenging large-scale real-world benchmark for image geo-localization.
- Abstract(参考訳): トランスフォーマーは自然言語処理や音声処理といったシーケンスモデリングタスクにおいて支配的なアーキテクチャとなり、画像分類のような自然にシーケンシャルでないタスクでも考慮されるようになった。
トークンセットにコンテクストとして参加し、処理する能力は、コンテキスト内少数ショット学習能力の開発を可能にする。
しかし、オンライン連続学習の可能性は比較的未解明のままである。
オンライン連続学習では、モデルは非定常データストリームに適応し、累積的なnextstep予測損失を最小化しなければならない。
教師付きオンライン連続学習設定に焦点をあて、例の列に$(x_t, y_t)$の予測子$x_t \rightarrow y_t$を学習する。
トランスフォーマーの文脈内学習能力とメタラーニングとの関係に着想を得て,これらの強みをオンライン連続学習に活用する手法を提案する。
提案手法は,transformer-xlで導入した手順に従って,オンライン上で確率的勾配降下訓練を行うと同時に,近年の観測では,トランスフォーマを明示的に条件付ける。
我々は、シーケンシャルプロトコルに固執しながらマルチエピックトレーニングの利点を維持するためにreplayを組み込む。
この組み合わせは、文脈内学習による迅速な適応と、パラメトリック学習による長期的改善を可能にすると仮定する。
画像の局所化に挑戦する大規模実世界ベンチマークであるclocでは,従来より大幅に改善が見られた。
関連論文リスト
- Premonition: Using Generative Models to Preempt Future Data Changes in
Continual Learning [63.850451635362425]
継続的な学習には、データ分散の継続的な変化に対応するためのモデルが必要である。
本稿では,大規模言語モデルと画像生成モデルの組み合わせが有用であることを示す。
トレーニング済みネットワークのバックボーンは、下流の連続学習問題に有用な表現を学習できることがわかった。
論文 参考訳(メタデータ) (2024-03-12T06:29:54Z) - Reset It and Forget It: Relearning Last-Layer Weights Improves Continual
and Transfer Learning [2.4807486426407044]
この研究は、継続学習と転帰学習をより良く示す表現につながる単純な事前学習メカニズムを特定する。
最後の層における重みの繰り返しのリセットは、私たちが「ザッピング」と呼ぶもので、元々はメタコンチネンタル・ラーニング(メタコンチネンタル・ラーニング)の手順のために設計されていた。
メタラーニングと継続学習の両以上の多くの環境で驚くほど適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-12T02:52:14Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Continual Learning with Transformers for Image Classification [12.028617058465333]
コンピュータビジョンでは、ニューラルネットワークモデルは、過去に何を学んだかを忘れずに、新しい概念を継続的に学習する。
本研究では,適応型適応器の蒸留法 (ADA) を開発した。
本手法は,モデルを再学習することなく,優れた予測性能を維持することを実証的に示す。
論文 参考訳(メタデータ) (2022-06-28T15:30:10Z) - Dynamic Regret Analysis for Online Meta-Learning [0.0]
オンラインメタ学習フレームワークは、継続的な生涯学習設定のための強力なツールとして生まれてきた。
この定式化には、メタラーナーを学ぶ外部レベルと、タスク固有のモデルを学ぶ内部レベルという2つのレベルが含まれる。
グローバルな予測から環境の変化を扱う動的な後悔という観点から、パフォーマンスを確立します。
本稿では,本分析を1つの設定で実施し,各イテレーションの総数に依存する局所的局所的後悔の対数論的証明を期待する。
論文 参考訳(メタデータ) (2021-09-29T12:12:59Z) - Meta-learning the Learning Trends Shared Across Tasks [123.10294801296926]
グラディエントベースのメタ学習アルゴリズムは、限られたデータで新しいタスクに素早く適応する。
既存のメタ学習アプローチは、適応中の現在のタスク情報にのみ依存する。
パターン認識型メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T08:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。