論文の概要: Reawakening knowledge: Anticipatory recovery from catastrophic interference via structured training
- arxiv url: http://arxiv.org/abs/2403.09613v2
- Date: Sun, 24 Nov 2024 03:37:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:17:00.828220
- Title: Reawakening knowledge: Anticipatory recovery from catastrophic interference via structured training
- Title(参考訳): 再覚醒知識:構造的訓練による破滅的干渉からの予測回復
- Authors: Yanlai Yang, Matt Jones, Michael C. Mozer, Mengye Ren,
- Abstract要約: 固定された繰り返しシーケンスで文書が循環的に提示される構造化された非IID環境で、ニューラルネットワークのトレーニングダイナミクスを探索する。
過度にパラメータ化されたニューラルネットワークは破滅的な干渉から回復できることがわかった。
- 参考スコア(独自算出の注目度): 24.719121340143978
- License:
- Abstract: We explore the training dynamics of neural networks in a structured non-IID setting where documents are presented cyclically in a fixed, repeated sequence. Typically, networks suffer from catastrophic interference when training on a sequence of documents; however, we discover a curious and remarkable property of LLMs finetuned sequentially in this setting: they exhibit anticipatory behavior, recovering from the forgetting on documents before encountering them again. This behavior occurs even though the documents are never presented in context together. The behavior emerges and becomes more robust as the architecture scales up its number of parameters. Through comprehensive experiments and visualizations, we demonstrate a new mechanism by which over-parametrized neural networks can recover from catastrophic interference and uncover new insights into training over-parameterized networks in cyclically structured environments.
- Abstract(参考訳): 固定された繰り返しシーケンスで文書が循環的に提示される構造化された非IID環境で、ニューラルネットワークのトレーニングダイナミクスを探索する。
典型的には、一連の文書をトレーニングする際、ネットワークは破滅的な干渉に悩まされるが、この環境では、予想的な振る舞いを示し、文書を忘れて再遭遇する前に回復するという、興味深い、注目すべきLCMの特性が連続的に見いだされる。
この振る舞いは、文書がコンテキスト内で一緒に提示されることはないにもかかわらず発生します。
アーキテクチャがパラメータの数をスケールアップするにつれて、振る舞いが出現し、より堅牢になる。
包括的な実験と可視化を通じて、過度にパラメータ化されたニューラルネットワークが破滅的な干渉から回復し、循環的に構造化された環境における過度パラメータ化されたネットワークのトレーニングに関する新たな洞察を明らかにする新しいメカニズムを実証する。
関連論文リスト
- Disentangling the Causes of Plasticity Loss in Neural Networks [55.23250269007988]
可塑性の喪失は複数の独立したメカニズムに分解できることを示す。
種々の非定常学習タスクにおいて, 層正規化と重み劣化の組み合わせは, 可塑性維持に極めて有効であることを示す。
論文 参考訳(メタデータ) (2024-02-29T00:02:33Z) - Leveraging Low-Rank and Sparse Recurrent Connectivity for Robust
Closed-Loop Control [63.310780486820796]
繰り返し接続のパラメータ化が閉ループ設定のロバスト性にどのように影響するかを示す。
パラメータが少ないクローズドフォーム連続時間ニューラルネットワーク(CfCs)は、フルランクで完全に接続されたニューラルネットワークよりも優れています。
論文 参考訳(メタデータ) (2023-10-05T21:44:18Z) - Deconstructing Data Reconstruction: Multiclass, Weight Decay and General
Losses [28.203535970330343]
Haim et al. (2022) は多層パーセプトロンバイナリ分類器からトレーニングサンプルを再構成する手法を提案した。
我々は、多クラスニューラルネットワークや畳み込みニューラルネットワークからの再構成を含む、いくつかの方向で研究結果を拡張した。
本稿では,ネットワークのこのような再建計画への感受性に寄与する諸要因について検討する。
論文 参考訳(メタデータ) (2023-07-04T17:09:49Z) - Critical Learning Periods for Multisensory Integration in Deep Networks [112.40005682521638]
ニューラルネットワークが様々な情報源からの情報を統合する能力は、トレーニングの初期段階において、適切な相関した信号に晒されることに批判的になることを示す。
臨界周期は、訓練されたシステムとその学習された表現の最終性能を決定づける、複雑で不安定な初期過渡的ダイナミクスから生じることを示す。
論文 参考訳(メタデータ) (2022-10-06T23:50:38Z) - Classification of network topology and dynamics via sequence
characterization [0.1611401281366893]
ネットワークトポロジとエージェントダイナミックス生成シーケンスの両方を復元するために,共起法によるネットワークの再構築が有用かどうかを検討する。
再構成されたネットワークの特性は,シーケンス作成に使用されるプロセスやトポロジに関する貴重な情報を提供することがわかった。
論文 参考訳(メタデータ) (2022-06-30T11:05:39Z) - The learning phases in NN: From Fitting the Majority to Fitting a Few [2.5991265608180396]
本研究では、学習中のパラメータの進化に基づいて、入力と予測性能の層再構成能力を分析する。
また、ResNetやVGGといったコンピュータビジョンから、共通のデータセットやアーキテクチャを用いて行動を評価する。
論文 参考訳(メタデータ) (2022-02-16T19:11:42Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Detecting structural perturbations from time series with deep learning [0.0]
本稿では,関数型時系列から構造摂動を推定するためのグラフニューラルネットワークを提案する。
データ駆動型アプローチは典型的な再構成手法より優れていることを示す。
この研究は、現実世界の複雑なシステムのレジリエンスを研究するための実践的な方法を明らかにする。
論文 参考訳(メタデータ) (2020-06-09T13:08:40Z) - Online Continual Learning on Sequences [9.603184477806954]
オンライン連続学習(オンライン連続学習、英: Online Continuousal Learning、OCL)とは、トレーニングサンプルを再考することなく、連続したデータストリームから時間とともに学習できるシステムである。
OCLに対処する機械学習モデルは、新しい入力ストリームから学習する際に、隠れた表現が破壊されるか、完全に上書きされるような、テキスト触媒的忘れを軽減する必要がある。
論文 参考訳(メタデータ) (2020-03-20T05:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。