論文の概要: Enlightenment Period Improving DNN Performance
- arxiv url: http://arxiv.org/abs/2504.01737v1
- Date: Wed, 02 Apr 2025 13:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:20:05.413760
- Title: Enlightenment Period Improving DNN Performance
- Title(参考訳): DNN性能向上のための啓蒙期間
- Authors: Tiantian Liu, Weishi Xu, Meng Wan, Jue Wang,
- Abstract要約: ディープニューラルネットワークトレーニングの初期段階では、損失は徐々に低くなる前に急速に減少する。
既存の研究では、初期訓練におけるノイズの導入がモデル性能を低下させる可能性が示唆されている。
トレーニングサイクルの最初の4%までを含む重要な「啓蒙期間」を特定した。
- 参考スコア(独自算出の注目度): 7.374268326712801
- License:
- Abstract: In the early stage of deep neural network training, the loss decreases rapidly before gradually leveling off. Extensive research has shown that during this stage, the model parameters undergo significant changes and their distribution is largely established. Existing studies suggest that the introduction of noise during early training can degrade model performance. We identify a critical "enlightenment period" encompassing up to the first 4% of the training cycle (1--20 epochs for 500-epoch training schedules), a phase characterized by intense parameter fluctuations and heightened noise sensitivity. Our findings reveal that strategically reducing noise during this brief phase--by disabling data augmentation techniques such as Mixup or removing high-loss samples--leads to statistically significant improvements in model performance. This work opens new avenues for exploring the relationship between the enlightenment period and network training dynamics across diverse model architectures and tasks.
- Abstract(参考訳): ディープニューラルネットワークトレーニングの初期段階では、損失は徐々に低くなる前に急速に減少する。
大規模な研究により、この段階ではモデルパラメータが大幅に変化し、その分布がほぼ確立されていることが示されている。
既存の研究では、初期訓練におけるノイズの導入がモデル性能を低下させる可能性が示唆されている。
トレーニングサイクルの最初の4%(500エポックトレーニングスケジュールでは1-20エポック)を含む重要な「啓蒙期間」を同定し,パラメータ変動と雑音感度の上昇を特徴とする位相を同定した。
これらの結果から,Mixupや高損失サンプルの除去といったデータ強化手法を無効にすることで,モデル性能が統計的に有意に向上することが示唆された。
この研究は、様々なモデルアーキテクチャやタスクにわたる啓蒙期間とネットワークトレーニングのダイナミックスとの関係を探求する新たな道を開く。
関連論文リスト
- Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Spurious Forgetting in Continual Learning of Language Models [20.0936011355535]
大規模言語モデル(LLM)の最近の進歩は、継続学習において複雑な現象を呈している。
大規模な訓練にもかかわらず、モデルは大幅な性能低下を経験する。
本研究では,このような性能低下が,真の知識喪失よりもタスクアライメントの低下を反映していることが示唆された。
論文 参考訳(メタデータ) (2025-01-23T08:09:54Z) - On Multi-Stage Loss Dynamics in Neural Networks: Mechanisms of Plateau and Descent Stages [1.5235340620594793]
トレーニング中に得られた損失曲線は,初期高原ステージ,初期降下ステージ,二次高原ステージの3つの異なる段階を同定した。
厳密な分析を通じて,高原期における訓練の遅さに寄与する基礎的課題を明らかにする。
論文 参考訳(メタデータ) (2024-10-26T08:16:00Z) - Towards Robust Transcription: Exploring Noise Injection Strategies for Training Data Augmentation [55.752737615873464]
本研究では,SNR(Signal-to-Noise Ratio)レベルにおける白色雑音の影響について検討した。
この研究は、様々な音環境における一貫した性能を維持する転写モデルの開発に向けた予備的な研究として、貴重な洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-10-18T02:31:36Z) - Improved Noise Schedule for Diffusion Training [51.849746576387375]
本稿では,拡散モデルのトレーニングを強化するため,ノイズスケジュールを設計するための新しい手法を提案する。
我々は,標準のコサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示す。
論文 参考訳(メタデータ) (2024-07-03T17:34:55Z) - Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。
この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文 参考訳(メタデータ) (2024-05-29T15:44:51Z) - Unraveling the Temporal Dynamics of the Unet in Diffusion Models [33.326244121918634]
拡散モデルはガウスノイズをトレーニングデータに導入し、元のデータを反復的に再構築する。
この反復プロセスの中心は単一のUnetであり、生成を容易にするために時間ステップを越えて適応する。
近年の研究では, この生成過程における組成および脱臭相の存在が明らかにされている。
論文 参考訳(メタデータ) (2023-12-17T04:40:33Z) - Small-scale proxies for large-scale Transformer training instabilities [69.36381318171338]
我々は、小規模でトレーニングの安定性と不安定性を再現し、研究する方法を模索する。
学習速度とスケールによる損失の関係を計測することにより,これらの不安定性は,学習率の高いトレーニングにおいて,小さなモデルにも現れることを示す。
ウォームアップ,ウェイト崩壊,および$mu$Paramなどの手法を用いて,学習速度変化の桁数で同様の損失を被る小さなモデルを訓練する。
論文 参考訳(メタデータ) (2023-09-25T17:48:51Z) - A Loss Curvature Perspective on Training Instability in Deep Learning [28.70491071044542]
学習力学における損失の曲率の影響を理解するため,多くの分類課題における損失ヘッセンの進化について検討した。
条件付けの観点から,学習率のウォームアップはバッチ正規化と同じくらいのトレーニング安定性を向上できることを示した。
論文 参考訳(メタデータ) (2021-10-08T20:25:48Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。