論文の概要: LION-DG: Layer-Informed Initialization with Deep Gradient Protocols for Accelerated Neural Network Training
- arxiv url: http://arxiv.org/abs/2601.02105v1
- Date: Mon, 05 Jan 2026 13:33:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.150406
- Title: LION-DG: Layer-Informed Initialization with Deep Gradient Protocols for Accelerated Neural Network Training
- Title(参考訳): LION-DG: ニューラルネットワーク学習のためのディープグラディエントプロトコルを用いた層インフォーム初期化
- Authors: Hyunjun Kim,
- Abstract要約: 我々は、ディープニューラルネットワークのためのゼロインフォームド層インフォームド最適化であるLION-DGを提案する。
LION-DGは、背骨へのHe-初期化を実装し、重みが大きくなるにつれて補助的なウォームアップ勾配に相転移する。
CIFAR-10とCIFAR-100のResNet-DSおよびDenseNet-DSアーキテクチャによる実験は、LION-DGの優れた性能を示している。
- 参考スコア(独自算出の注目度): 12.969042037563971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weight initialization remains decisive for neural network optimization, yet existing methods are largely layer-agnostic. We study initialization for deeply-supervised architectures with auxiliary classifiers, where untrained auxiliary heads can destabilize early training through gradient interference. We propose LION-DG, a layer-informed initialization that zero-initializes auxiliary classifier heads while applying standard He-initialization to the backbone. We prove that this implements Gradient Awakening: auxiliary gradients are exactly zero at initialization, then phase in naturally as weights grow -- providing an implicit warmup without hyperparameters. Experiments on CIFAR-10 and CIFAR-100 with DenseNet-DS and ResNet-DS architectures demonstrate: (1) DenseNet-DS: +8.3% faster convergence on CIFAR-10 with comparable accuracy, (2) Hybrid approach: Combining LSUV with LION-DG achieves best accuracy (81.92% on CIFAR-10), (3) ResNet-DS: Positive speedup on CIFAR-100 (+11.3%) with side-tap auxiliary design. We identify architecture-specific trade-offs and provide clear guidelines for practitioners. LION-DG is simple, requires zero hyperparameters, and adds no computational overhead.
- Abstract(参考訳): ニューラルネットワークの最適化には依然として重み付け初期化が決定的だが、既存の手法はほとんどレイヤに依存しない。
本研究では,非訓練型補助頭部が勾配干渉による早期訓練を不安定化できる補助分類器を用いた深層構造の初期化について検討する。
LION-DG は,標準 He-initialization をバックボーンに適用しながら,補助分類器ヘッドをゼロに初期化する階層インフォーム初期化である。
補助勾配は初期化時に完全にゼロであり、重みが大きくなるにつれて自然に位相が変化する -- ハイパーパラメータなしで暗黙のウォームアップを提供する。
1) DenseNet-DS: +8.3% CIFAR-10と同等の精度でCIFAR-10を収束させる実験、(2) LION-DGとLSUVを組み合わせたハイブリッドアプローチ(CIFAR-10では81.92%)、(3) ResNet-DS: CIFAR-100の正のスピードアップ(+11.3%)、およびサイドタップ補助設計である。
アーキテクチャ固有のトレードオフを特定し、実践者に対して明確なガイドラインを提供します。
LION-DGは単純で、ハイパーパラメータがゼロで、計算オーバーヘッドは加えない。
関連論文リスト
- Information-Theoretic Greedy Layer-wise Training for Traffic Sign Recognition [0.5024983453990065]
レイヤワイズトレーニングは、クロスエントロピー損失とバックプロパゲーションの必要性を排除する。
既存の階層的なトレーニングアプローチの多くは、比較的小さなデータセットでのみ評価されている。
本稿では,最近開発された決定論的情報ボトルネック(DIB)と行列に基づくR'enyiの$alpha$-orderエントロピー関数に基づく,階層的学習手法を提案する。
論文 参考訳(メタデータ) (2025-10-31T17:24:58Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - GI-NAS: Boosting Gradient Inversion Attacks Through Adaptive Neural Architecture Search [52.27057178618773]
グラディエント・インバージョン・アタック (Gradient Inversion Attacks) は、Federated Learning (FL) システムの伝達勾配を反転させ、ローカルクライアントの機密データを再構築する。
勾配反転法の大半は明示的な事前知識に大きく依存しており、現実的なシナリオでは利用できないことが多い。
本稿では,ニューラルネットワークを適応的に探索し,ニューラルネットワークの背後にある暗黙の先行情報をキャプチャするニューラルアーキテクチャ探索(GI-NAS)を提案する。
論文 参考訳(メタデータ) (2024-05-31T09:29:43Z) - DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training [33.11416096294998]
ゼロオーダー(ZO)最適化は、機械学習(ML)問題を解決する一般的なテクニックとなっている。
ディープニューラルネットワーク(DNN)のトレーニングにおけるZO最適化の有効性を、パフォーマンスを著しく低下させることなく実証した以前の研究はない。
我々は,ZO最適化をDNNトレーニングにスクラッチから拡張可能なZOディープラーニング(DL)フレームワークであるDeepZeroを開発した。
論文 参考訳(メタデータ) (2023-10-03T13:05:36Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。