Fugu-MT 論文翻訳(概要): Continual Pre-Training Mitigates Forgetting in Language and Vision

論文の概要: Continual Pre-Training Mitigates Forgetting in Language and Vision

arxiv url: http://arxiv.org/abs/2205.09357v1
Date: Thu, 19 May 2022 07:27:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-20 12:08:04.812935
Title: Continual Pre-Training Mitigates Forgetting in Language and Vision
Title（参考訳）: 言語とビジョンにおける事前学習の継続
Authors: Andrea Cossu, Tinne Tuytelaars, Antonio Carta, Lucia Passaro, Vincenzo Lomonaco, Davide Bacciu
Abstract要約: 絶え間なく事前訓練されたモデルは破滅的な忘れ物に対して堅牢であることを示す。本稿では,自己指導型事前学習が,教師付きプロトコルよりも事前知識の保持に有効であることを示す実証的証拠を提供する。
参考スコア（独自算出の注目度）: 43.80547864450793
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained models are nowadays a fundamental component of machine learning research. In continual learning, they are commonly used to initialize the model before training on the stream of non-stationary data. However, pre-training is rarely applied during continual learning. We formalize and investigate the characteristics of the continual pre-training scenario in both language and vision environments, where a model is continually pre-trained on a stream of incoming data and only later fine-tuned to different downstream tasks. We show that continually pre-trained models are robust against catastrophic forgetting and we provide strong empirical evidence supporting the fact that self-supervised pre-training is more effective in retaining previous knowledge than supervised protocols. Code is provided at https://github.com/AndreaCossu/continual-pretraining-nlp-vision .
Abstract（参考訳）: 事前学習モデルは現在、機械学習研究の基本的なコンポーネントとなっている。連続学習では、非定常データのストリームでトレーニングする前にモデルを初期化するのに使われる。しかし、事前学習は連続学習中にはほとんど適用されない。言語と視覚環境の両方において、モデルが入力されたデータストリーム上で継続的に事前学習され、後から異なる下流タスクに微調整されるような連続的な事前学習シナリオの特性を形式化し、検証する。我々は, 自己指導型事前学習が, 教師付きプロトコルよりも, 事前知識の維持に有効であるという事実を裏付ける, 強烈な実証的証拠を提示する。コードはhttps://github.com/AndreaCossu/continual-pretraining-nlp-visionで提供されている。

関連論文リスト

From Acceleration to Saturation: Scaling Behavior of Bootstrapped Language Model Pretraining [2.569647910019739]
ブートストラッププレトレーニングのスケーリング挙動について検討し,そのスケーリング効率が予測可能な方法で低下することを確認した。本研究は,効率的な言語モデル学習のための実践的知見を提供し,過度に訓練されたモデルの再利用に関する重要な考察を提起する。
論文参考訳（メタデータ） (2025-10-08T00:59:33Z)
Evolution of Concepts in Language Model Pre-Training [53.994470178155105]
クロスコーダと呼ばれるスパース辞書学習手法を用いて,事前学習スナップショットにおける線形解釈可能な特徴の進化を追跡する。ほとんどの機能が特定のポイントの周りに形成され始め、さらに複雑なパターンが後のトレーニング段階に現れます。
論文参考訳（メタデータ） (2025-09-21T18:53:12Z)
Reuse, Don't Retrain: A Recipe for Continued Pretraining of Language Models [29.367678364485794]
本稿では,言語モデルの事前学習を継続する上で,効率的なデータ分布と学習率スケジュールを設計する方法を示す。プレトレーニングセットにおける継続トレーニングのベースラインと比較すると,平均モデル精度は9%向上した。
論文参考訳（メタデータ） (2024-07-09T22:37:59Z)
An Empirical Analysis of Forgetting in Pre-trained Models with Incremental Low-Rank Updates [11.90029443742706]
本研究は,ローランド適応(LoRA)のランクが,事前学習の基礎課題の忘れ方,可塑性およびその後の課題の忘れ方に及ぼす影響について検討する。また、この方法で微調整された視覚トランスフォーマーは、残余のネットワークでは観測できないような、ある種の文脈的「忘れ」を示す。
論文参考訳（メタデータ） (2024-05-28T11:29:25Z)
PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文参考訳（メタデータ） (2023-09-13T17:55:11Z)
Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文参考訳（メタデータ） (2022-09-30T02:25:12Z)
Lifelong Pretraining: Continually Adapting Language Models to Emerging Corpora [31.136334214818305]
本稿では,PTLMが更新され続けている言語モデル事前学習課題について検討する。ドメインインクリメンタルな研究論文ストリームと時系列に順序付けられたつぶやきストリームを通じて、PTLMを異なる連続学習アルゴリズムで段階的に事前訓練する。本実験は,ロジット蒸留を最も効果的に行うことにより,学習アルゴリズムが知識保存を改善することを示す。
論文参考訳（メタデータ） (2021-10-16T09:59:33Z)
On the Transferability of Pre-trained Language Models: A Study from Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文参考訳（メタデータ） (2021-09-08T10:39:57Z)
The Lottery Tickets Hypothesis for Supervised and Self-supervised Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。最近の研究は、巨大モデル能力による事前学習の利点を示唆している。本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文参考訳（メタデータ） (2020-12-12T21:53:55Z)
Pretrained Language Model Embryology: The Birth of ALBERT [68.5801642674541]
ランダムなパラメータの集合からトチエント言語モデルへの発達過程について検討する。その結果、ALBERTは、事前学習中に異なる学習速度で、音声の異なる部分(POS)のトークンを再構成し、予測することを学習していることがわかった。これらの結果は、事前訓練されたモデルの知識が事前訓練の間に異なることを示唆し、事前訓練のステップを持つことは、必ずしもより包括的な知識を持つモデルを提供するとは限らないことを示唆している。
論文参考訳（メタデータ） (2020-10-06T05:15:39Z)
A Survey on Self-supervised Pre-training for Sequential Transfer Learning in Neural Networks [1.1802674324027231]
移動学習のための自己教師付き事前学習は、ラベルのないデータを用いて最先端の結果を改善する技術として、ますます人気が高まっている。本稿では,自己指導型学習と伝達学習の分類学の概要を述べるとともに,各領域にまたがる事前学習タスクを設計するためのいくつかの顕著な手法を強調した。
論文参考訳（メタデータ） (2020-07-01T22:55:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。