Fugu-MT 論文翻訳(概要): GradMax: Growing Neural Networks using Gradient Information

論文の概要: GradMax: Growing Neural Networks using Gradient Information

arxiv url: http://arxiv.org/abs/2201.05125v1
Date: Thu, 13 Jan 2022 18:30:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-14 17:19:12.336401
Title: GradMax: Growing Neural Networks using Gradient Information
Title（参考訳）: GradMax: 勾配情報を用いたニューラルネットワークの成長
Authors: Utku Evci, Max Vladymyrov, Thomas Unterthiner, Bart van Merri\"enboer, Fabian Pedregosa
Abstract要約: 本稿では,学習中に学習内容に影響を与えることなく新たなニューロンを付加し,トレーニングのダイナミクスを改良する手法を提案する。この手法をGradMax(GradMax)と呼び、様々な視覚タスクやアーキテクチャにおいてその効果を実証する。
参考スコア（独自算出の注目度）: 22.986063120002353
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The architecture and the parameters of neural networks are often optimized independently, which requires costly retraining of the parameters whenever the architecture is modified. In this work we instead focus on growing the architecture without requiring costly retraining. We present a method that adds new neurons during training without impacting what is already learned, while improving the training dynamics. We achieve the latter by maximizing the gradients of the new weights and find the optimal initialization efficiently by means of the singular value decomposition (SVD). We call this technique Gradient Maximizing Growth (GradMax) and demonstrate its effectiveness in variety of vision tasks and architectures.
Abstract（参考訳）: ニューラルネットワークのアーキテクチャとパラメータは独立して最適化されることが多く、アーキテクチャが修正されるたびにパラメータの調整に要する。この作業では、コストのかかる再トレーニングを必要とせずに、アーキテクチャの成長に重点を置いています。本稿では,学習中に学習内容に影響を与えることなく新たなニューロンを付加し,トレーニングのダイナミクスを改良する手法を提案する。本研究では,新しい重みの勾配を最大化し,特異値分解(svd)により最適初期化を求める。我々はこの手法を成長を最大化する勾配(gradmax)と呼び、様々なビジョンタスクやアーキテクチャにおいてその効果を示す。

関連論文リスト

Growth strategies for arbitrary DAG neural architectures [1.944442137907768]
私たちは、必要に応じて小さなモデルのサイズを拡大できるニューラルアーキテクチャの成長にフォーカスしています。我々は過剰な計算を減らし、よりパラメータ効率の良いアーキテクチャに向けてネットワークの成長を推し進める戦略を探る。
論文参考訳（メタデータ） (2025-01-22T08:02:01Z)
Advancing Neural Network Performance through Emergence-Promoting Initialization Scheme [0.0]
機械学習の創発は、トレーニングデータのスケールと構造から生じる能力の自発的な出現を指す。我々は、出現の可能性を高めることを目的とした、新しい単純なニューラルネットワーク初期化スキームを導入する。バッチ正規化の有無にかかわらず,モデル精度とトレーニング速度の両面で大幅に向上したことを示す。
論文参考訳（メタデータ） (2024-07-26T18:56:47Z)
Growing Tiny Networks: Spotting Expressivity Bottlenecks and Fixing Them Optimally [2.645067871482715]
機械学習タスクでは、ある機能空間内で最適な関数を探索する。この方法で、トレーニング中の機能の進化を、選択したアーキテクチャで表現可能な領域内に配置させます。表現力のボトルネックによる望ましいアーキテクチャ変更に関する情報は, 後処理の % から抽出可能であることを示す。
論文参考訳（メタデータ） (2024-05-30T08:23:56Z)
Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文参考訳（メタデータ） (2024-02-27T11:52:49Z)
Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。 LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文参考訳（メタデータ） (2023-08-23T10:48:28Z)
Composable Function-preserving Expansions for Transformer Architectures [2.579908688646812]
最先端のニューラルネットワークのトレーニングには、計算と時間の面で高いコストが必要となる。本稿では,変圧器ベースニューラルネットワークのサイズを漸進的に増加させるために,構成可能な6つの変換を提案する。
論文参考訳（メタデータ） (2023-08-11T12:27:22Z)
Multiplicative update rules for accelerating deep learning training and increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文参考訳（メタデータ） (2023-07-14T06:44:43Z)
Neuroevolution of Recurrent Architectures on Control Tasks [3.04585143845864]
並列に並列な進化的アルゴリズムを実装し、19のOpenAI Gym状態に基づく強化学習制御タスクで実験を行う。動的エージェントは, パラメータの桁数を桁違いに減らしながら, 勾配に基づくエージェントの性能に適合するか, 上回っていることがわかった。
論文参考訳（メタデータ） (2023-04-03T16:29:18Z)
Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文参考訳（メタデータ） (2023-03-05T17:57:33Z)
Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文参考訳（メタデータ） (2022-10-12T06:49:16Z)
Dynamically Grown Generative Adversarial Networks [111.43128389995341]
本稿では、ネットワークアーキテクチャとそのパラメータを自動化とともに最適化し、トレーニング中にGANを動的に成長させる手法を提案する。本手法はアーキテクチャ探索手法を勾配に基づく訓練とインターリーブステップとして組み込んで,ジェネレータと識別器の最適アーキテクチャ成長戦略を定期的に探究する。
論文参考訳（メタデータ） (2021-06-16T01:25:51Z)
GradInit: Learning to Initialize Neural Networks for Stable and Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文参考訳（メタデータ） (2021-02-16T11:45:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。