論文の概要: Why Loss Re-weighting Works If You Stop Early: Training Dynamics of Unconstrained Features
- arxiv url: http://arxiv.org/abs/2601.12011v1
- Date: Sat, 17 Jan 2026 11:26:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.417652
- Title: Why Loss Re-weighting Works If You Stop Early: Training Dynamics of Unconstrained Features
- Title(参考訳): 再重み付けが早めに終わる理由:制約のない機能のトレーニングダイナミクス
- Authors: Yize Zhao, Christos Thrampoulidis,
- Abstract要約: 本稿では,この現象を透過的に実証し解析するための小型モデル(SSM)を提案する。
一方、SSMは、バニラ経験的リスク最小化が、訓練の早い段階でマイノリティよりも多数派を区別することを優先的に学んでいることを明らかにしている。
対照的に、再重み付けはバランスの取れた学習力学を復元し、多数派とマイノリティの両方に関連する特徴の同時学習を可能にする。
- 参考スコア(独自算出の注目度): 34.88156871518115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of loss reweighting in modern deep learning presents a nuanced picture. While it fails to alter the terminal learning phase in overparameterized deep neural networks (DNNs) trained on high-dimensional datasets, empirical evidence consistently shows it offers significant benefits early in training. To transparently demonstrate and analyze this phenomenon, we introduce a small-scale model (SSM). This model is specifically designed to abstract the inherent complexities of both the DNN architecture and the input data, while maintaining key information about the structure of imbalance within its spectral components. On the one hand, the SSM reveals how vanilla empirical risk minimization preferentially learns to distinguish majority classes over minorities early in training, consequently delaying minority learning. In stark contrast, reweighting restores balanced learning dynamics, enabling the simultaneous learning of features associated with both majorities and minorities.
- Abstract(参考訳): 現代のディープラーニングにおける損失再重み付けの適用は、微妙なイメージを提示する。
高次元データセットでトレーニングされた過度パラメータ化されたディープニューラルネットワーク(DNN)では、終端学習フェーズの変更に失敗するが、実験的なエビデンスは、トレーニングの初期段階において重要なメリットを常に示している。
この現象を透過的に実証し,解析するために,小型モデル(SSM)を導入する。
このモデルは、DNNアーキテクチャと入力データの両方の本質的な複雑さを抽象化し、スペクトル成分内の不均衡構造について重要な情報を保持するように設計されている。
一方、SSMは、バニラ経験的リスク最小化が、訓練の早い段階でマイノリティよりも多数派を区別することを優先的に学習し、結果としてマイノリティ学習を遅らせる方法を明らかにしている。
対照的に、再重み付けはバランスの取れた学習力学を復元し、多数派とマイノリティの両方に関連する特徴の同時学習を可能にする。
関連論文リスト
- The Importance of Being Lazy: Scaling Limits of Continual Learning [60.97756735877614]
モデル幅の増大は,特徴学習の量を減らし,遅延度を高めた場合にのみ有益であることを示す。
特徴学習,タスク非定常性,および忘れることの複雑な関係について検討し,高い特徴学習が極めて類似したタスクにのみ有用であることを示す。
論文 参考訳(メタデータ) (2025-06-20T10:12:38Z) - Understanding Sharpness Dynamics in NN Training with a Minimalist Example: The Effects of Dataset Difficulty, Depth, Stochasticity, and More [10.65078014704416]
シャープさのあるディープニューラルネットワークをトレーニングする場合、安定性の端で飽和する前に、しばしば増加する。
本研究では、この現象をミニマリストモデル、すなわち1層に1つのニューロンを持つディープ線形ネットワークを用いて研究する。
この単純なモデルは、最近の経験的研究で観察されたシャープネスのダイナミクスを効果的に捉え、ニューラルネットワークのトレーニングをよりよく理解するための簡単なテストベッドを提供する。
論文 参考訳(メタデータ) (2025-06-07T22:35:13Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Harnessing the Power of Explanations for Incremental Training: A
LIME-Based Approach [6.244905619201076]
この研究では、モデル説明がフィードフォワードトレーニングにフィードバックされ、モデルをより一般化するのに役立つ。
このフレームワークは、シーケンシャルなテストセットのパフォーマンスを維持するために、Elastic Weight Consolidation (EWC)によるカスタム重み付き損失を取り入れている。
提案したカスタムトレーニング手順は、インクリメンタルラーニングセットアップのすべてのフェーズにおいて、0.5%から1.5%までの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2022-11-02T18:16:17Z) - Critical Learning Periods for Multisensory Integration in Deep Networks [112.40005682521638]
ニューラルネットワークが様々な情報源からの情報を統合する能力は、トレーニングの初期段階において、適切な相関した信号に晒されることに批判的になることを示す。
臨界周期は、訓練されたシステムとその学習された表現の最終性能を決定づける、複雑で不安定な初期過渡的ダイナミクスから生じることを示す。
論文 参考訳(メタデータ) (2022-10-06T23:50:38Z) - Symplectic Momentum Neural Networks -- Using Discrete Variational
Mechanics as a prior in Deep Learning [7.090165638014331]
本稿では,Sypic Momentum Networks (SyMo) を,非分離機械系のメカニクスの離散的な定式化のモデルとして紹介する。
このような組み合わせによって、これらのモデルが限られたデータから得られるだけでなく、シンプレクティックなフォームを保存し、より長期的な振る舞いを示す能力も提供できることが示される。
論文 参考訳(メタデータ) (2022-01-20T16:33:19Z) - Reducing Catastrophic Forgetting in Self Organizing Maps with
Internally-Induced Generative Replay [67.50637511633212]
生涯学習エージェントは、パターン知覚データの無限のストリームから継続的に学習することができる。
適応するエージェントを構築する上での歴史的難しさの1つは、ニューラルネットワークが新しいサンプルから学ぶ際に、以前取得した知識を維持するのに苦労していることである。
この問題は破滅的な忘れ(干渉)と呼ばれ、今日の機械学習の領域では未解決の問題のままである。
論文 参考訳(メタデータ) (2021-12-09T07:11:14Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。