論文の概要: Does RoBERTa Perform Better than BERT in Continual Learning: An Attention Sink Perspective
- arxiv url: http://arxiv.org/abs/2410.05648v1
- Date: Tue, 8 Oct 2024 02:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 17:29:06.759166
- Title: Does RoBERTa Perform Better than BERT in Continual Learning: An Attention Sink Perspective
- Title(参考訳): RoBERTaは継続的な学習においてBERTより優れているか:注意シンク視点
- Authors: Xueying Bai, Yifan Sun, Niranjan Balasubramanian,
- Abstract要約: 継続的な学習は、以前のタスクの知識を忘れずに、シーケンシャルに新しいタスクを学習できるモデルを訓練することを目的としている。
我々は,すべてのトークンに対する注意の多様性を促す事前スケーリング機構を提案する。
- 参考スコア(独自算出の注目度): 17.684262507409816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning (CL) aims to train models that can sequentially learn new tasks without forgetting previous tasks' knowledge. Although previous works observed that pre-training can benefit CL, it remains unclear whether a pre-trained model with higher downstream capacity also performs better in CL. In this paper, we observe that pre-trained models may allocate high attention scores to some 'sink' tokens, such as [SEP] tokens, which are ubiquitous across various tasks. Such attention sinks may lead to models' over-smoothing in single-task learning and interference in sequential tasks' learning, which may compromise the models' CL performance despite their high pre-trained capabilities. To reduce these effects, we propose a pre-scaling mechanism that encourages attention diversity across all tokens. Specifically, it first scales the task's attention to the non-sink tokens in a probing stage, and then fine-tunes the model with scaling. Experiments show that pre-scaling yields substantial improvements in CL without experience replay, or progressively storing parameters from previous tasks.
- Abstract(参考訳): 継続学習(CL)は、以前のタスクの知識を忘れずに、順次新しいタスクを学習できるモデルを訓練することを目的としている。
以前の研究では、事前学習がCLにとって有益であることがわかったが、下流容量の高い事前学習モデルもCLでより優れた性能を発揮するかどうかは不明だ。
本稿では,事前学習したモデルが,様々なタスクにおいてユビキタスな[SEP]トークンなどの「シンクトークン」に高い注意スコアを割り当てる可能性があることを観察する。
このような注意シンクは、シングルタスク学習におけるモデルの過度な平滑化と、シーケンシャルタスクの学習における干渉につながる可能性があり、事前訓練された能力にもかかわらず、モデルのCL性能を損なう可能性がある。
これらの効果を低減するために,すべてのトークンに対する注意の多様性を促す事前スケーリング機構を提案する。
具体的には、まず、探索段階における非シンクトークンに対するタスクの注意を拡大し、次にスケーリングによってモデルを微調整する。
実験によると、事前スケーリングは、経験的なリプレイや、以前のタスクからのパラメータの漸進的な保存なしに、CLを大幅に改善する。
関連論文リスト
- Controlling Forgetting with Test-Time Data in Continual Learning [15.455400390299593]
継続学習研究は、新しい知識が得られたときの過去の情報の破滅的な忘れを克服する技術を提供する。
テストタイムデータには,従来の学習タスクのモデルメモリをリフレッシュするために,自己管理的な方法で活用できる優れた情報がある,と我々は主張する。
論文 参考訳(メタデータ) (2024-06-19T15:56:21Z) - StochCA: A Novel Approach for Exploiting Pretrained Models with Cross-Attention [2.66269503676104]
トランスフォーマーアーキテクチャに特有なクロスアテンション(StochCA)と呼ばれる新しい微調整手法を提案する。
この方法はトランスフォーマーの自己保持機構を変更し、微調整中に事前学習したモデルからの知識を選択的に活用する。
両領域の最先端アプローチに対するStochCAの優位性について検討した。
論文 参考訳(メタデータ) (2024-02-25T13:53:49Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文 参考訳(メタデータ) (2023-06-21T05:26:28Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - TOAST: Transfer Learning via Attention Steering [77.83191769502763]
現在の伝達学習法は、しばしばタスク関連機能に焦点をあてることに失敗する。
タスク固有の特徴に注意を向ける新しい伝達学習アルゴリズムであるTop-Down Attention Steering(TOAST)を紹介する。
TOASTは、さまざまなきめ細かい視覚分類データセットのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-05-24T20:03:04Z) - Do Pre-trained Models Benefit Equally in Continual Learning? [25.959813589169176]
既存の継続学習(CL)の研究は主に、ゼロから訓練されたモデルのアルゴリズムの開発に費やされている。
コントリビュートベンチマークのパフォーマンスは高いが、これらのアルゴリズムは現実のシナリオで劇的なパフォーマンス低下を示す。
本稿では,CLに対する事前学習の体系的導入を提唱する。
論文 参考訳(メタデータ) (2022-10-27T18:03:37Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。