論文の概要: Reawakening knowledge: Anticipatory recovery from catastrophic interference via structured training
- arxiv url: http://arxiv.org/abs/2403.09613v1
- Date: Thu, 14 Mar 2024 17:51:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 19:06:48.289543
- Title: Reawakening knowledge: Anticipatory recovery from catastrophic interference via structured training
- Title(参考訳): 再覚醒知識:構造的訓練による破滅的干渉からの予測回復
- Authors: Yanlai Yang, Matt Jones, Michael C. Mozer, Mengye Ren,
- Abstract要約: 固定された繰り返しシーケンスで文書が循環的に提示される構造化された非IID環境で、ニューラルネットワークのトレーニングダイナミクスを探索する。
この環境では, LLMの興味深い, 注目すべき特性が連続的に見出され, 予測行動を示し, 文書の忘れ物から回復し, 再び遭遇する。
- 参考スコア(独自算出の注目度): 24.719121340143978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the training dynamics of neural networks in a structured non-IID setting where documents are presented cyclically in a fixed, repeated sequence. Typically, networks suffer from catastrophic interference when training on a sequence of documents; however, we discover a curious and remarkable property of LLMs fine-tuned sequentially in this setting: they exhibit anticipatory behavior, recovering from the forgetting on documents before encountering them again. The behavior emerges and becomes more robust as the architecture scales up its number of parameters. Through comprehensive experiments and visualizations, we uncover new insights into training over-parameterized networks in structured environments.
- Abstract(参考訳): 固定された繰り返しシーケンスで文書が循環的に提示される構造化された非IID環境で、ニューラルネットワークのトレーニングダイナミクスを探索する。
典型的には、一連の文書のトレーニングにおいて、ネットワークは破滅的な干渉に悩まされるが、この環境では、予測行動を示し、文書の忘れ物から再び遭遇する前に回復する、微調整されたLCMの興味深い、注目すべき特性が発見される。
アーキテクチャがパラメータの数をスケールアップするにつれて、振る舞いが出現し、より堅牢になる。
総合的な実験と可視化を通じて、構造化環境における過パラメータネットワークのトレーニングに関する新たな洞察を明らかにする。
関連論文リスト
- Understanding and Leveraging the Learning Phases of Neural Networks [7.1169582271841625]
深層ニューラルネットワークの学習力学はよく理解されていない。
本研究では,入力および予測性能の層再構築能力について検討し,学習力学を包括的に解析する。
本稿では,ResNetやVGGといった共通データセットとアーキテクチャを用いた3つのフェーズの存在を示す。
論文 参考訳(メタデータ) (2023-12-11T23:20:58Z) - Deconstructing Data Reconstruction: Multiclass, Weight Decay and General
Losses [28.203535970330343]
Haim et al. (2022) は多層パーセプトロンバイナリ分類器からトレーニングサンプルを再構成する手法を提案した。
我々は、多クラスニューラルネットワークや畳み込みニューラルネットワークからの再構成を含む、いくつかの方向で研究結果を拡張した。
本稿では,ネットワークのこのような再建計画への感受性に寄与する諸要因について検討する。
論文 参考訳(メタデータ) (2023-07-04T17:09:49Z) - Understanding Reconstruction Attacks with the Neural Tangent Kernel and
Dataset Distillation [110.61853418925219]
我々は、データセット再構築攻撃のより強力なバージョンを構築し、無限の幅で設定されたエンペントリアルトレーニングを確実に回復する方法を示す。
理論的にも経験的にも再構成された画像は、データセットの「外部」に傾向を示す。
これらのリコンストラクション攻撃は, テクストデータセット蒸留において, 再構成画像上で再トレーニングを行い, 高い予測精度を得ることができる。
論文 参考訳(メタデータ) (2023-02-02T21:41:59Z) - Critical Learning Periods for Multisensory Integration in Deep Networks [112.40005682521638]
ニューラルネットワークが様々な情報源からの情報を統合する能力は、トレーニングの初期段階において、適切な相関した信号に晒されることに批判的になることを示す。
臨界周期は、訓練されたシステムとその学習された表現の最終性能を決定づける、複雑で不安定な初期過渡的ダイナミクスから生じることを示す。
論文 参考訳(メタデータ) (2022-10-06T23:50:38Z) - Learning Fast and Slow for Online Time Series Forecasting [76.50127663309604]
Fast and Slow Learning Networks (FSNet)は、オンライン時系列予測のための総合的なフレームワークである。
FSNetは、最近の変更への迅速な適応と、同様の古い知識の取得のバランスを取る。
私たちのコードは公開されます。
論文 参考訳(メタデータ) (2022-02-23T18:23:07Z) - The learning phases in NN: From Fitting the Majority to Fitting a Few [2.5991265608180396]
本研究では、学習中のパラメータの進化に基づいて、入力と予測性能の層再構成能力を分析する。
また、ResNetやVGGといったコンピュータビジョンから、共通のデータセットやアーキテクチャを用いて行動を評価する。
論文 参考訳(メタデータ) (2022-02-16T19:11:42Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Supporting Optimal Phase Space Reconstructions Using Neural Network
Architecture for Time Series Modeling [68.8204255655161]
位相空間特性を暗黙的に学習する機構を持つ人工ニューラルネットワークを提案する。
私たちのアプローチは、ほとんどの最先端戦略と同じくらいの競争力があるか、あるいは優れているかのどちらかです。
論文 参考訳(メタデータ) (2020-06-19T21:04:47Z) - Detecting structural perturbations from time series with deep learning [0.0]
本稿では,関数型時系列から構造摂動を推定するためのグラフニューラルネットワークを提案する。
データ駆動型アプローチは典型的な再構成手法より優れていることを示す。
この研究は、現実世界の複雑なシステムのレジリエンスを研究するための実践的な方法を明らかにする。
論文 参考訳(メタデータ) (2020-06-09T13:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。