論文の概要: Norm-Hierarchy Transitions in Representation Learning: When and Why Neural Networks Abandon Shortcuts
- arxiv url: http://arxiv.org/abs/2603.07323v1
- Date: Sat, 07 Mar 2026 20:07:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.292531
- Title: Norm-Hierarchy Transitions in Representation Learning: When and Why Neural Networks Abandon Shortcuts
- Title(参考訳): 表現学習におけるノルム階層遷移--ニューラルネットワークがショートカットを捨てた時期と理由
- Authors: Truong Xuan Khanh, Truong Quynh Hoa,
- Abstract要約: 遅延表現学習を説明するNorm-Hierarchy Transition (NHT) フレームワークを紹介する。
我々は、遷移遅延がショートカットと構造化ノルムの比で対数的に増加することを示す厳密な境界を導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks often rely on spurious shortcuts for many epochs before discovering structured representations. However, the mechanism governing when this transition occurs and whether its timing can be predicted remains unclear. Prior work shows that gradient descent converges to low norm solutions and that neural networks exhibit simplicity bias, but neither explains the timescale of the transition from shortcut features to structured representations. We introduce the Norm-Hierarchy Transition (NHT) framework, which explains delayed representation learning as the slow traversal of a hierarchy of parameter norms during regularized optimization. When multiple interpolating solutions exist with different norms, weight decay gradually moves the model from high norm shortcut solutions toward lower norm structured representations. We derive a tight bound showing that the transition delay grows logarithmically with the ratio between shortcut and structured norms. Experiments on modular arithmetic, CIFAR-10 with spurious features, CelebA, and Waterbirds support the predictions of the framework. The results suggest that grokking, shortcut learning, and delayed feature discovery arise from a common mechanism based on norm hierarchy traversal during training.
- Abstract(参考訳): ニューラルネットワークはしばしば、構造化された表現を発見する前に、多くのエポックに対して急激なショートカットに依存する。
しかし、この移行がいつ発生し、そのタイミングを予測できるかは、まだ不明である。
以前の研究では、勾配降下は低ノルム解に収束し、ニューラルネットワークは単純さのバイアスを示すが、ショートカット特徴から構造化表現への遷移の時間スケールを説明できない。
我々は,正規化最適化におけるパラメータノルムの階層の遅いトラバースとして,遅延表現学習を説明する,Norm-Hierarchy Transition (NHT) フレームワークを紹介した。
複数の補間解が異なるノルムを持つとき、ウェイト崩壊はモデルを高ノルムのショートカット解からより低いノルム構造表現へと徐々に移動させる。
我々は、遷移遅延がショートカットと構造化ノルムの比で対数的に増加することを示す厳密な境界を導出する。
モジュラー演算の実験、刺激的な特徴を持つCIFAR-10、CelebA、ウォーターバードはフレームワークの予測をサポートする。
以上の結果から,学習中の標準的階層的トラバーサルに基づく共通メカニズムから,グルーキング,ショートカット学習,特徴発見の遅れが示唆された。
関連論文リスト
- A Representation-Consistent Gated Recurrent Framework for Robust Medical Time-Series Classification [0.0]
隠れ状態表現における時間的一貫性を強制する規則化された正規化戦略を導入するための表現一貫性を持つゲートリカレントフレームワーク(RC-GRF)を提案する。
提案するフレームワークはモデルに依存しないため,内部ゲーティング機構を変更することなく,既存のゲート型リカレントアーキテクチャに統合することができる。
論文 参考訳(メタデータ) (2026-02-10T17:16:49Z) - Hierarchical temporal receptive windows and zero-shot timescale generalization in biologically constrained scale-invariant deep networks [1.2031796234206136]
我々は、スケール不変の海馬時間細胞に基づいて、生物学的に制約された深層ネットワークを訓練する。
ネットワークは層内に同じ時間定数のスペクトルを持つにもかかわらず、TRWの階層構造が自然に層全体に出現することを発見した。
次に、これらの誘導前駆体を生物学的に妥当な再帰的アーキテクチャであるSITH-RNNに蒸留した。
論文 参考訳(メタデータ) (2026-01-06T00:36:45Z) - Generalization in Representation Models via Random Matrix Theory: Application to Recurrent Networks [7.721672385781673]
まず,固定された特徴表現(凍結中間層)と学習可能な読み出し層を用いたモデルの一般化誤差について検討する。
一般化誤差に対する閉形式式を導出するためにランダム行列理論を適用する。
次に、この解析を繰り返し表現に適用し、その性能を特徴付ける簡潔な公式を得る。
論文 参考訳(メタデータ) (2025-11-04T09:30:31Z) - IBN: An Interpretable Bidirectional-Modeling Network for Multivariate Time Series Forecasting with Variable Missing [6.481926629151858]
IBN(Interpretable Bidirectional-modeling Network)を提案する。
IBNがUncertainty-Aware Interpolation (UAI)とGraph Convolution (GGCN)を統合した
実験により、ISNは様々な欠落したシナリオ下で最先端の予測性能を達成することが示された。
論文 参考訳(メタデータ) (2025-09-09T13:27:21Z) - Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - The Role of Temporal Hierarchy in Spiking Neural Networks [2.0881857682885836]
スパイキングニューラルネットワーク(SNN)は、空間的パラメータと時間的パラメータの両方を活用することにより、リッチ時間信号処理の可能性を秘めている。
最近、時間定数は、ネットワークで必要とされるパラメータの総数を減らすのに役立つ計算上の利点があることが示されている。
最適化のコストを削減するために、この場合、時間領域においてアーキテクチャバイアスを適用することができる。
本稿では,SNNの隠蔽層に時間的表現の階層を付加し,そのような帰納的バイアスが性能を向上させることを明らかにする。
論文 参考訳(メタデータ) (2024-07-26T16:00:20Z) - The Sample Complexity of One-Hidden-Layer Neural Networks [57.6421258363243]
本研究では,スカラー値を持つ一層ネットワークのクラスとユークリッドノルムで有界な入力について検討する。
隠蔽層重み行列のスペクトルノルムの制御は、一様収束を保証するには不十分であることを示す。
スペクトルノルム制御が十分であることを示す2つの重要な設定を解析する。
論文 参考訳(メタデータ) (2022-02-13T07:12:02Z) - Short-Term Memory Optimization in Recurrent Neural Networks by
Autoencoder-based Initialization [79.42778415729475]
線形オートエンコーダを用いた列列の明示的暗記に基づく代替解を提案する。
このような事前学習が、長いシーケンスで難しい分類タスクを解くのにどのように役立つかを示す。
提案手法は, 長周期の復元誤差をはるかに小さくし, 微調整時の勾配伝播を良くすることを示す。
論文 参考訳(メタデータ) (2020-11-05T14:57:16Z) - Supporting Optimal Phase Space Reconstructions Using Neural Network
Architecture for Time Series Modeling [68.8204255655161]
位相空間特性を暗黙的に学習する機構を持つ人工ニューラルネットワークを提案する。
私たちのアプローチは、ほとんどの最先端戦略と同じくらいの競争力があるか、あるいは優れているかのどちらかです。
論文 参考訳(メタデータ) (2020-06-19T21:04:47Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。