論文の概要: A Random-Matrix Criterion for Initializing Gated Recurrent Neural Networks
- arxiv url: http://arxiv.org/abs/2605.10650v1
- Date: Mon, 11 May 2026 14:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 02:24:05.572347
- Title: A Random-Matrix Criterion for Initializing Gated Recurrent Neural Networks
- Title(参考訳): ゲート型リカレントニューラルネットワークの初期化のためのランダム行列基準
- Authors: Tommaso Fioratti, Riccardo Marcaccioli, Francesco Casola,
- Abstract要約: 貯水池計算」では、貯水池の重量は線形に学習され、貯水池の重量は固定され、結果として生じる力学の豊かさ、安定性、記憶を決定づける。
無限幅の極限において、有意義な初期化はランダム層モデルの有効臨界点に位置するものであることが示されている。
ここでは,広範囲の繰り返しアーキテクチャに対して臨界$g_c$を推定するための簡単な基準を導出し,ゲート-RNN貯水池がカオス予測タスクにおいてピーク性能を達成する際の利益を密に追跡することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proper weight initialization prior to training has historically been one of the key factors that helped kick off the deep learning revolution. Initialization is even more crucial in "reservoir computing", where the weights of a readout layer are learned linearly while the reservoir weights are fixed and largely determine the richness, stability and memory of the resulting dynamics. In the infinite-width limit it has been shown that meaningful initializations are those sitting at an effective critical point of the randomly initialized model. The phase transition is controlled by the weight variance $g^2$ and separates an ordered phase from a chaotic one where information progressively degrades. Here we derive a simple criterion to estimate the critical $g_c$ for a broad class of recurrent architectures and we show that it closely tracks the gain at which a gated-RNN reservoir achieves peak performance on a chaotic forecasting task. Finally, we argue that our criterion can serve as a design principle for future initialization schemes.
- Abstract(参考訳): トレーニング前の適切な初期化は、ディープラーニング革命のきっかけとなった重要な要因の1つでした。
初期化は、読み出し層の重みが線形に学習され、貯水池の重みが固定され、結果として生じるダイナミクスの豊かさ、安定性、記憶が決定される「貯水池計算」においてさらに重要である。
無限幅の極限において、有意義な初期化はランダムに初期化されたモデルの有効臨界点に位置するものであることが示されている。
位相遷移は重量分散$g^2$で制御され、情報が徐々に劣化するカオス相と順序相を分離する。
ここでは,広範囲の繰り返しアーキテクチャに対して臨界$g_c$を推定するための簡単な基準を導出し,ゲート-RNN貯水池がカオス予測タスクにおいてピーク性能を達成する際の利益を密に追跡することを示す。
最後に、我々の基準は将来の初期化スキームの設計原則として役立つと論じる。
関連論文リスト
- A Theory of How Pretraining Shapes Inductive Bias in Fine-Tuning [51.505728136705564]
我々は, 対角線ネットワークにおけるプレトレーニングファインチューニングパイプラインの解析理論を開発した。
異なる初期化選択により、ネットワークは4つの異なる微調整レジームに分類される。
以前の階層の縮小により、ネットワークは機能の再利用と洗練を両立することができ、より優れた一般化を実現している。
論文 参考訳(メタデータ) (2026-02-23T17:19:33Z) - ConsNoTrainLoRA: Data-driven Weight Initialization of Low-rank Adapters using Constraints [64.35580479051208]
以前の作品では、ローランクアダプタ (LoRA) はすべてのアタッチメントポイントに対してランダムに固定されたランクである。
本稿では,データ駆動重み初期化法を用いて,LoRAファインチューニングの収束性と最終性能を改善する。
論文 参考訳(メタデータ) (2025-07-09T23:52:31Z) - Sinusoidal Initialization, Time for a New Start [0.5242869847419834]
初期化はディープニューラルネットワークトレーニングにおいて重要な役割を担い、収束、安定性、一般化に直接影響を与える。
本稿では,ネットワーク全体の重みの広がりとバランスを改善するために,正弦波関数を用いて構造的重み行列を構築する新しい決定論的手法を提案する。
実験の結果,最終検証精度は4.9%,収束速度は20.9%向上した。
論文 参考訳(メタデータ) (2025-05-19T09:45:18Z) - Initialization Matters for Adversarial Transfer Learning [61.89451332757625]
我々は、逆向きに頑健な事前訓練モデルの必要性を発見する。
本稿では, 対向線形探索により得られる重み付き線形ヘッドを初期化する対向微調整のためのロバスト線形初期化法(RoLI)を提案する。
5つの異なる画像分類データセットにおいて,RoLIの有効性を実証し,新しい最先端結果を得た。
論文 参考訳(メタデータ) (2023-12-10T00:51:05Z) - Scaling and Resizing Symmetry in Feedforward Networks [0.0]
臨界点における物理系によって示されるスケーリング特性は、臨界点におけるランダムな重みを持つトレーニングされていないフィードフォワードネットワークにも存在していることを示す。
我々は、臨界におけるスケーリング対称性から直接受け継がれる追加のデータ縮小対称性を提案する。
論文 参考訳(メタデータ) (2023-06-26T18:55:54Z) - On the Implicit Bias of Initialization Shape: Beyond Infinitesimal
Mirror Descent [55.96478231566129]
学習モデルを決定する上で,相対スケールが重要な役割を果たすことを示す。
勾配流の誘導バイアスを導出する手法を開発した。
論文 参考訳(メタデータ) (2021-02-19T07:10:48Z) - Structured Weight Priors for Convolutional Neural Networks [74.1348917619643]
本稿では,重み前への構造付加の利点について考察する。
まず、畳み込みNNの第1層フィルタについて検討し、ランダムなガボルフィルタに基づいて事前設計を行う。
実験結果から、これらの構造的な重み付けは、画像データに対してより意味のある機能的先行をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-07-12T13:05:51Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。