論文の概要: Regime Change Hypothesis: Foundations for Decoupled Dynamics in Neural Network Training
- arxiv url: http://arxiv.org/abs/2602.08333v1
- Date: Mon, 09 Feb 2026 07:14:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.098312
- Title: Regime Change Hypothesis: Foundations for Decoupled Dynamics in Neural Network Training
- Title(参考訳): レジーム変化仮説:ニューラルネットワークトレーニングにおける非結合ダイナミクスの基礎
- Authors: Cristian Pérez-Corral, Alberto Fernández-Hernández, Jose I. Mestre, Manuel F. Dolz, Jose Duato, Enrique S. Quintana-Ortí,
- Abstract要約: ReLUベースのモデルでは、与えられた入力によって誘導される活性化パターンが、ネットワークが親和的に振る舞う一方向線形領域を決定する。
トレーニングが2段階の行動を示すかを検討する。アクティベーションパターンが大幅に変化した初期段階と、重み更新が主にモデルを洗練させる後期である。
- 参考スコア(独自算出の注目度): 1.0518862318418603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the empirical success of DNN, their internal training dynamics remain difficult to characterize. In ReLU-based models, the activation pattern induced by a given input determines the piecewise-linear region in which the network behaves affinely. Motivated by this geometry, we investigate whether training exhibits a two-timescale behavior: an early stage with substantial changes in activation patterns and a later stage where weight updates predominantly refine the model within largely stable activation regimes. We first prove a local stability property: outside measure-zero sets of parameters and inputs, sufficiently small parameter perturbations preserve the activation pattern of a fixed input, implying locally affine behavior within activation regions. We then empirically track per-iteration changes in weights and activation patterns across fully-connected and convolutional architectures, as well as Transformer-based models, where activation patterns are recorded in the ReLU feed-forward (MLP/FFN) submodules, using fixed validation subsets. Across the evaluated settings, activation-pattern changes decay 3 times earlier than weight-update magnitudes, showing that late-stage training often proceeds within relatively stable activation regimes. These findings provide a concrete, architecture-agnostic instrument for monitoring training dynamics and motivate further study of decoupled optimization strategies for piecewise-linear networks. For reproducibility, code and experiment configurations will be released upon acceptance.
- Abstract(参考訳): DNNの実証的な成功にもかかわらず、彼らの内部トレーニングのダイナミクスを特徴づけるのは困難である。
ReLUベースのモデルでは、与えられた入力によって誘導される活性化パターンが、ネットワークが親和的に振る舞う一方向線形領域を決定する。
この幾何によって、トレーニングが2段階の行動を示すかどうかを考察し、アクティベーションパターンが大幅に変化した初期段階と、重み更新がほぼ安定なアクティベーションレギュレーションレギュレーション内でモデルを洗練させる後期である。
パラメータと入力の外部測度ゼロの集合、十分に小さなパラメータ摂動は、固定された入力の活性化パターンを保ち、活性化領域内の局所的なアフィンの挙動を示唆する。
次に,ReLUフィードフォワード(MLP/FFN)サブモジュール内のアクティベーションパターンを記録するTransformerベースのモデルとともに,完全連結型および畳み込み型アーキテクチャにおける重み付きおよびアクティベーションパターンの変化を,固定された検証サブセットを用いて実証的に追跡する。
評価された設定全体では、アクティベーション・パターンの変化は重み付けのマグニチュードよりも3倍早く減衰し、後期訓練は比較的安定したアクティベーション・レジーム内で進行することが示された。
これらの知見は、動的にトレーニングをモニタリングする具体的かつアーキテクチャに依存しない手段を提供し、断片的な線形ネットワークに対する非結合最適化戦略のさらなる研究を動機付けている。
再現性のために、コードと実験の設定は受け入れ次第リリースされる。
関連論文リスト
- Activation Function Design Sustains Plasticity in Continual Learning [1.618563064839635]
継続的な学習では、モデルは適応する能力を失う可能性がある。
可塑性損失を軽減するため, アクティベーション選択はアーキテクチャに依存しない主要なレバーであることを示す。
論文 参考訳(メタデータ) (2025-09-26T16:41:47Z) - Time-Scale Coupling Between States and Parameters in Recurrent Neural Networks [3.924071936547547]
ゲーテッドニューラルネットワーク(RNN)は、適応的な学習速度の振る舞いを暗黙的に誘発する。
効果は状態空間の時間スケールとパラメータ空間のダイナミクスの結合から生じる。
経験的シミュレーションはこれらの主張を裏付ける。
論文 参考訳(メタデータ) (2025-08-16T18:19:34Z) - Weight-Space Linear Recurrent Neural Networks [2.77067514910801]
WARP (Weight-space Adaptive Recurrent Prediction) は、重み空間学習を線形反復で統一する強力なモデルである。
WARPは、様々な分類タスクにおいて最先端のベースラインと一致しているか、あるいは超越しているかを示す。
注目すべきは、我々のモデルの物理インフォームド変種は、次の最良のモデルよりも10倍以上優れています。
論文 参考訳(メタデータ) (2025-06-01T20:13:28Z) - PreAdaptFWI: Pretrained-Based Adaptive Residual Learning for Full-Waveform Inversion Without Dataset Dependency [8.719356558714246]
フルウェーブフォーム・インバージョン(Full-waveform Inversion、FWI)は、地震データを用いて地下媒体の物理パラメータを反転させる手法である。
異常な性質のため、FWIは局所的なミニマに閉じ込められやすい。
ニューラルネットワークとFWIを組み合わせることで、インバージョンプロセスの安定化が試みられている。
論文 参考訳(メタデータ) (2025-02-17T15:30:17Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation [67.18144414660681]
オンラインビジョン・アンド・ランゲージナビゲーション(VLN)のためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
提案手法は,4つのベンチマークにおいて顕著な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-22T07:47:39Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Active Tuning [0.5801044612920815]
ニューラルネットワーク(RNN)の内部ダイナミクスを高速に最適化するための新しいパラダイムであるActive Tuningを紹介する。
従来のシーケンス間マッピング方式とは対照的に、Active Tuningは入力ストリームからRNNのリカレントニューラルアクティビティを分離する。
いくつかの時系列予測ベンチマークにおいてアクティブチューニングの有効性を示す。
論文 参考訳(メタデータ) (2020-10-02T20:21:58Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。