Fugu-MT 論文翻訳(概要): Advancing Neural Network Performance through Emergence-Promoting Initialization Scheme

論文の概要: Advancing Neural Network Performance through Emergence-Promoting Initialization Scheme

arxiv url: http://arxiv.org/abs/2407.19044v2
Date: Thu, 8 Aug 2024 21:46:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-12 17:59:25.743621
Title: Advancing Neural Network Performance through Emergence-Promoting Initialization Scheme
Title（参考訳）: 創発的初期化スキームによるニューラルネットワーク性能の向上
Authors: Johnny Jingze Li, Vivek Kurien George, Gabriel A. Silva,
Abstract要約: 本稿では,ニューラルネットワークの初期化手法を提案する。この手法は,Li(2023)が提案する出現対策の概念にインスパイアされ,より高い出現値を達成するために,レイヤワイド・ウェイト・スケーリング・ファクタを調整した。バッチ正規化の有無にかかわらず,モデル精度とトレーニング速度の両面で大幅に向上したことを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a novel yet straightforward neural network initialization scheme that modifies conventional methods like Xavier and Kaiming initialization. Inspired by the concept of emergence and leveraging the emergence measures proposed by Li (2023), our method adjusts the layer-wise weight scaling factors to achieve higher emergence values. This enhancement is easy to implement, requiring no additional optimization steps for initialization compared to GradInit. We evaluate our approach across various architectures, including MLP and convolutional architectures for image recognition, and transformers for machine translation. We demonstrate substantial improvements in both model accuracy and training speed, with and without batch normalization. The simplicity, theoretical innovation, and demonstrable empirical advantages of our method make it a potent enhancement to neural network initialization practices. These results suggest a promising direction for leveraging emergence to improve neural network training methodologies. Code is available at: https://github.com/johnnyjingzeli/EmergenceInit.
Abstract（参考訳）: 本稿では,Xavier や Kaiming などの従来の手法を改良した,比較的簡単なニューラルネットワーク初期化手法を提案する。この手法は,Li(2023)が提案する出現対策の概念にインスパイアされ,より高い出現値を達成するために,レイヤワイド・ウェイト・スケーリング・ファクタを調整した。この拡張は実装が容易で、GradInitと比較して初期化のための追加の最適化手順を必要としない。我々は、画像認識のためのMLPや畳み込みアーキテクチャ、機械翻訳のためのトランスフォーマーなど、様々なアーキテクチャにおけるアプローチを評価した。バッチ正規化の有無にかかわらず,モデル精度とトレーニング速度の両面で大幅に向上したことを示す。我々の手法の単純さ、理論的革新、実証可能な経験的優位性は、ニューラルネットワークの初期化の実践を強力に強化する。これらの結果は、出現を利用してニューラルネットワークトレーニング手法を改善するための有望な方向性を示唆している。コードは、https://github.com/johnnyjingzeli/EmergenceInit.comで入手できる。

関連論文リスト

Towards Guided Descent: Optimization Algorithms for Training Neural Networks At Scale [0.0]
この論文は、古典的な一階法から近代的な高階法への最適化アルゴリズムの進化を研究する。この分析は、現実世界のデータを表す異方性に直面する従来のアプローチの限界を明らかにする。次に、これらの最適化アルゴリズムとより広範なニューラルネットワークトレーニングツールキットとの相互作用は、経験的成功に等しく不可欠である。
論文参考訳（メタデータ） (2025-12-20T14:20:46Z)
Generalized Factor Neural Network Model for High-dimensional Regression [50.554377879576066]
複素・非線形・雑音に隠れた潜在低次元構造を持つ高次元データセットをモデル化する課題に取り組む。我々のアプローチは、非パラメトリック回帰、因子モデル、高次元回帰のためのニューラルネットワークの概念のシームレスな統合を可能にする。
論文参考訳（メタデータ） (2025-02-16T23:13:55Z)
Novel Saliency Analysis for the Forward Forward Algorithm [0.0]
ニューラルネットワークトレーニングにフォワードフォワードアルゴリズムを導入する。この方法は、2つのフォワードパスを実際のデータで実行し、正の強化を促進する。従来のサリエンシ手法に固有の制約を克服するため,フォワードフォワードフレームワークに特化してベスポークサリエンシアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-09-18T17:21:59Z)
Adaptive Class Emergence Training: Enhancing Neural Network Stability and Generalization through Progressive Target Evolution [0.0]
分類問題におけるニューラルネットワークの新しいトレーニング手法を提案する。我々は、トレーニングプロセスを通して、ヌルベクトルから1ホットの符号化ベクターへのターゲット出力を進化させる。この段階的な遷移により、ネットワークは分類タスクの複雑さの増大によりスムーズに適応できる。
論文参考訳（メタデータ） (2024-09-04T03:25:48Z)
Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文参考訳（メタデータ） (2024-02-27T11:52:49Z)
Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
ニューラルネットワークのような予測器のための新しいトレーニング原理であるLFP(Layer-wise Feedback Propagation)を提案する。 LFPは、与えられたタスクの解決へのそれぞれの貢献に基づいて、個々のニューロンに報酬を分解する。提案手法は,ネットワークの有用な部分を補強し,有害な部分を弱めるという欲求的アプローチを実現する。
論文参考訳（メタデータ） (2023-08-23T10:48:28Z)
Multiplicative update rules for accelerating deep learning training and increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文参考訳（メタデータ） (2023-07-14T06:44:43Z)
Neuroevolution of Recurrent Architectures on Control Tasks [3.04585143845864]
並列に並列な進化的アルゴリズムを実装し、19のOpenAI Gym状態に基づく強化学習制御タスクで実験を行う。動的エージェントは, パラメータの桁数を桁違いに減らしながら, 勾配に基づくエージェントの性能に適合するか, 上回っていることがわかった。
論文参考訳（メタデータ） (2023-04-03T16:29:18Z)
Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文参考訳（メタデータ） (2023-02-01T17:32:16Z)
NAR-Former: Neural Architecture Representation Learning towards Holistic Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文参考訳（メタデータ） (2022-11-15T10:15:21Z)
Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文参考訳（メタデータ） (2022-10-12T06:49:16Z)
RLFlow: Optimising Neural Network Subgraph Transformation with World Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文参考訳（メタデータ） (2022-05-03T11:52:54Z)
Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文参考訳（メタデータ） (2021-11-02T20:24:01Z)
GradInit: Learning to Initialize Neural Networks for Stable and Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文参考訳（メタデータ） (2021-02-16T11:45:35Z)
A Differential Game Theoretic Neural Optimizer for Training Residual Networks [29.82841891919951]
本稿では、残差接続と畳み込み層の両方を受け入れる一般化微分動的プログラミング(DDP)ニューラルアーキテクチャを提案する。得られた最適制御表現は、トレーニング残余ネットワークを、状態拡張システム上での協調的軌道最適化と解釈できるゲーム論的視点を許容する。
論文参考訳（メタデータ） (2020-07-17T10:19:17Z)
Dynamic Hierarchical Mimicking Towards Consistent Optimization Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。 DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文参考訳（メタデータ） (2020-03-24T09:56:13Z)
MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文参考訳（メタデータ） (2020-01-28T18:25:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。