Fugu-MT 論文翻訳(概要): Reawakening knowledge: Anticipatory recovery from catastrophic interference via structured training

論文の概要: Reawakening knowledge: Anticipatory recovery from catastrophic interference via structured training

arxiv url: http://arxiv.org/abs/2403.09613v1
Date: Thu, 14 Mar 2024 17:51:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-15 19:06:48.289543
Title: Reawakening knowledge: Anticipatory recovery from catastrophic interference via structured training
Title（参考訳）: 再覚醒知識:構造的訓練による破滅的干渉からの予測回復
Authors: Yanlai Yang, Matt Jones, Michael C. Mozer, Mengye Ren,
Abstract要約: 固定された繰り返しシーケンスで文書が循環的に提示される構造化された非IID環境で、ニューラルネットワークのトレーニングダイナミクスを探索する。この環境では, LLMの興味深い, 注目すべき特性が連続的に見出され, 予測行動を示し, 文書の忘れ物から回復し, 再び遭遇する。
参考スコア（独自算出の注目度）: 24.719121340143978
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We explore the training dynamics of neural networks in a structured non-IID setting where documents are presented cyclically in a fixed, repeated sequence. Typically, networks suffer from catastrophic interference when training on a sequence of documents; however, we discover a curious and remarkable property of LLMs fine-tuned sequentially in this setting: they exhibit anticipatory behavior, recovering from the forgetting on documents before encountering them again. The behavior emerges and becomes more robust as the architecture scales up its number of parameters. Through comprehensive experiments and visualizations, we uncover new insights into training over-parameterized networks in structured environments.
Abstract（参考訳）: 固定された繰り返しシーケンスで文書が循環的に提示される構造化された非IID環境で、ニューラルネットワークのトレーニングダイナミクスを探索する。典型的には、一連の文書のトレーニングにおいて、ネットワークは破滅的な干渉に悩まされるが、この環境では、予測行動を示し、文書の忘れ物から再び遭遇する前に回復する、微調整されたLCMの興味深い、注目すべき特性が発見される。アーキテクチャがパラメータの数をスケールアップするにつれて、振る舞いが出現し、より堅牢になる。総合的な実験と可視化を通じて、構造化環境における過パラメータネットワークのトレーニングに関する新たな洞察を明らかにする。

関連論文リスト

New Evidence of the Two-Phase Learning Dynamics of Neural Networks [59.55028392232715]
時間ウィンドウ全体にわたってネットワーク状態を比較するインターバルワイズ・パースペクティブを導入する。摂動に対するネットワークの応答はカオスから安定への移行を示す。また、この遷移点の後に、モデルの関数軌道は狭い円錐形の部分集合に制限される。
論文参考訳（メタデータ） (2025-05-20T04:03:52Z)
Continually Learning Structured Visual Representations via Network Refinement with Rerelation [15.376349115976534]
現在の機械学習パラダイムは、ニューラルネットワークのような連続的な表現に依存しており、パラメータを近似結果に反復的に調整する。構造化された連続的な方法で視覚空間を学習する手法を提案する。
論文参考訳（メタデータ） (2025-02-19T18:18:27Z)
Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文参考訳（メタデータ） (2025-02-03T20:30:46Z)
Disentangling the Causes of Plasticity Loss in Neural Networks [55.23250269007988]
可塑性の喪失は複数の独立したメカニズムに分解できることを示す。種々の非定常学習タスクにおいて, 層正規化と重み劣化の組み合わせは, 可塑性維持に極めて有効であることを示す。
論文参考訳（メタデータ） (2024-02-29T00:02:33Z)
Leveraging Low-Rank and Sparse Recurrent Connectivity for Robust Closed-Loop Control [63.310780486820796]
繰り返し接続のパラメータ化が閉ループ設定のロバスト性にどのように影響するかを示す。パラメータが少ないクローズドフォーム連続時間ニューラルネットワーク(CfCs)は、フルランクで完全に接続されたニューラルネットワークよりも優れています。
論文参考訳（メタデータ） (2023-10-05T21:44:18Z)
Deconstructing Data Reconstruction: Multiclass, Weight Decay and General Losses [28.203535970330343]
Haim et al. (2022) は多層パーセプトロンバイナリ分類器からトレーニングサンプルを再構成する手法を提案した。我々は、多クラスニューラルネットワークや畳み込みニューラルネットワークからの再構成を含む、いくつかの方向で研究結果を拡張した。本稿では,ネットワークのこのような再建計画への感受性に寄与する諸要因について検討する。
論文参考訳（メタデータ） (2023-07-04T17:09:49Z)
Critical Learning Periods for Multisensory Integration in Deep Networks [112.40005682521638]
ニューラルネットワークが様々な情報源からの情報を統合する能力は、トレーニングの初期段階において、適切な相関した信号に晒されることに批判的になることを示す。臨界周期は、訓練されたシステムとその学習された表現の最終性能を決定づける、複雑で不安定な初期過渡的ダイナミクスから生じることを示す。
論文参考訳（メタデータ） (2022-10-06T23:50:38Z)
Classification of network topology and dynamics via sequence characterization [0.1611401281366893]
ネットワークトポロジとエージェントダイナミックス生成シーケンスの両方を復元するために,共起法によるネットワークの再構築が有用かどうかを検討する。再構成されたネットワークの特性は,シーケンス作成に使用されるプロセスやトポロジに関する貴重な情報を提供することがわかった。
論文参考訳（メタデータ） (2022-06-30T11:05:39Z)
The learning phases in NN: From Fitting the Majority to Fitting a Few [2.5991265608180396]
本研究では、学習中のパラメータの進化に基づいて、入力と予測性能の層再構成能力を分析する。また、ResNetやVGGといったコンピュータビジョンから、共通のデータセットやアーキテクチャを用いて行動を評価する。
論文参考訳（メタデータ） (2022-02-16T19:11:42Z)
Explainable Adversarial Attacks in Deep Neural Networks Using Activation Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文参考訳（メタデータ） (2021-03-18T13:04:21Z)
PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文参考訳（メタデータ） (2021-03-17T08:28:30Z)
Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文参考訳（メタデータ） (2020-11-18T18:52:08Z)
Detecting structural perturbations from time series with deep learning [0.0]
本稿では,関数型時系列から構造摂動を推定するためのグラフニューラルネットワークを提案する。データ駆動型アプローチは典型的な再構成手法より優れていることを示す。この研究は、現実世界の複雑なシステムのレジリエンスを研究するための実践的な方法を明らかにする。
論文参考訳（メタデータ） (2020-06-09T13:08:40Z)
Online Continual Learning on Sequences [9.603184477806954]
オンライン連続学習(オンライン連続学習、英: Online Continuousal Learning、OCL)とは、トレーニングサンプルを再考することなく、連続したデータストリームから時間とともに学習できるシステムである。 OCLに対処する機械学習モデルは、新しい入力ストリームから学習する際に、隠れた表現が破壊されるか、完全に上書きされるような、テキスト触媒的忘れを軽減する必要がある。
論文参考訳（メタデータ） (2020-03-20T05:49:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。