Fugu-MT 論文翻訳(概要): Do Deep Networks Forget Initialization? A Forgetting-Time View of Practical Inductive Bias

論文の概要: Do Deep Networks Forget Initialization? A Forgetting-Time View of Practical Inductive Bias

arxiv url: http://arxiv.org/abs/2605.29152v1
Date: Wed, 27 May 2026 22:30:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 02:45:55.546274
Title: Do Deep Networks Forget Initialization? A Forgetting-Time View of Practical Inductive Bias
Title（参考訳）: ディープネットワークは初期化を予測しているか? : 実践的誘導バイアスの予測時間
Authors: Mohua Das, Pierfrancesco Beneventano, Shibshankar Dey, Gareth H. McKinkey, Tomaso Poggio,
Abstract要約: 低学習率のSGDは初期化を記憶しながら補間可能であることを示す。勾配流のような力学は記憶を保存できるが、有限ステップ効果、明示的ノルム減衰、適応的プレコンディショニングは、明示的あるいは暗黙的な正則化によって支配されるスケールでそれを消去する。
参考スコア（独自算出の注目度）: 0.5405981353784005
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Randomly initialized neural networks induce a prior over functions, but the predictor used in practice is produced only after training. We ask how much of this initial bias survives the training pipeline. To make the question measurable, we introduce initialization memory: the dependence of the validation-selected predictor on the scale of the random initialization. We perform controlled CIFAR-10 experiments on ResNets where initialization memory already sharply separates training regimes. Low-learning-rate SGD can interpolate while still remembering its initialization: on ResNet-9 with batch size $b=128$, test accuracy varies by $26.5$ percentage points across initialization scales despite $\ge99.5\%$ training accuracy. This is not undertraining: extending the same low-learning-rate regime to $5{,}000$ epochs leaves the spread essentially unchanged. In contrast, Adam-family methods largely erase the dependence. SGD can also be made to forget when larger learning rates are paired with explicit $L_2$ norm control. We interpret these findings in terms of the time scale of forgetting: gradient-flow-like dynamics can preserve initialization memory, whereas stochastic finite-step effects, explicit norm decay, and adaptive preconditioning erase it on scales governed by the size of explicit or implicit regularization. The practical inductive bias of a trained network is therefore not the architectural prior alone, but the architectural prior after being filtered by the forgetting dynamics of the training pipeline; and the same regularizers that improve generalization are precisely those that erase memory of initialization.
Abstract（参考訳）: ランダムに初期化されたニューラルネットワークは事前のオーバーファンクションを誘導するが、実際には予測器はトレーニング後にのみ生成される。この最初のバイアスのどれ程がトレーニングパイプラインを生き残るのか、私たちは尋ねます。質問を計測するために,検証選択した予測器がランダム初期化のスケールに依存するという初期化メモリを導入する。我々はResNet上で制御されたCIFAR-10実験を行い、初期化メモリはトレーニング体制を著しく分離している。バッチサイズが$b=128$のResNet-9では、トレーニング精度が$\ge99.5\%であるにもかかわらず、初期化スケール間でテスト精度が26.5$ポイント異なる。同じ低学習率の体制を5$,000$ epochsに拡張すると、スプレッドは基本的に変化しない。対照的に、アダム・ファミリーの手法は依存をほとんど消した。 SGDは、より大きな学習率と明示的な$L_2$ノルム制御がペアになっていることを忘れることもできる。勾配流のような力学は初期化メモリを保存できるのに対し、確率的有限ステップ効果、明示的ノルム崩壊、適応的プレコンディショニングは明示的あるいは暗黙的正規化の規模でそれらを消去する。したがって、訓練されたネットワークの実践的帰納バイアスは、アーキテクチャの事前バイアスではなく、トレーニングパイプラインの忘れているダイナミクスによってフィルタリングされたアーキテクチャの事前バイアスであり、一般化を改善する同じ正規化器は、まさに初期化の記憶を消去するものである。

関連論文リスト

A Random-Matrix Criterion for Initializing Gated Recurrent Neural Networks [0.0]
貯水池計算」では、貯水池の重量は線形に学習され、貯水池の重量は固定され、結果として生じる力学の豊かさ、安定性、記憶を決定づける。無限幅の極限において、有意義な初期化はランダム層モデルの有効臨界点に位置するものであることが示されている。ここでは,広範囲の繰り返しアーキテクチャに対して臨界$g_c$を推定するための簡単な基準を導出し,ゲート-RNN貯水池がカオス予測タスクにおいてピーク性能を達成する際の利益を密に追跡することを示す。
論文参考訳（メタデータ） (2026-05-11T14:35:22Z)
A Theory of How Pretraining Shapes Inductive Bias in Fine-Tuning [51.505728136705564]
我々は, 対角線ネットワークにおけるプレトレーニングファインチューニングパイプラインの解析理論を開発した。異なる初期化選択により、ネットワークは4つの異なる微調整レジームに分類される。以前の階層の縮小により、ネットワークは機能の再利用と洗練を両立することができ、より優れた一般化を実現している。
論文参考訳（メタデータ） (2026-02-23T17:19:33Z)
Learning effective pruning at initialization from iterative pruning [15.842658282636876]
本稿では、トレーニングコストを削減するために、エンドツーエンドのニューラルネットワークに基づくPaI手法を提案する。提案手法は, 既存手法よりも高スパース性設定で優れる。ニューラルネットワークを用いた最初のPaI手法として、このアプローチに影響を与える要因を検証するために広範な実験を行う。
論文参考訳（メタデータ） (2024-08-27T03:17:52Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
What to Prune and What Not to Prune at Initialization [0.0]
トレーニング後のドロップアウトベースのアプローチは、高いスパシティを実現する。ネットワークの計算コストのスケーリングに関しては,初期化プルーニングの方が有効だ。目標は、パフォーマンスを維持しながら、より高い疎性を達成することです。
論文参考訳（メタデータ） (2022-09-06T03:48:10Z)
Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文参考訳（メタデータ） (2022-02-02T11:58:56Z)
GradInit: Learning to Initialize Neural Networks for Stable and Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文参考訳（メタデータ） (2021-02-16T11:45:35Z)
Direction Matters: On the Implicit Bias of Stochastic Gradient Descent with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。 SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文参考訳（メタデータ） (2020-11-04T21:07:52Z)
Fractional moment-preserving initialization schemes for training deep neural networks [1.14219428942199]
ディープニューラルネットワーク(DNN)に対する従来のアプローチは、プレアクティベーションの分散を保存するために、ランダムにネットワーク重みをサンプリングすることである。本稿では,重み付き分布をモデル化することで,重み付けや事前活性化をモデル化できることを示す。数値実験により,本手法が訓練および試験性能を向上させることを示す。
論文参考訳（メタデータ） (2020-05-25T01:10:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。