Fugu-MT 論文翻訳(概要): Deep Fusion: Efficient Network Training via Pre-trained Initializations

論文の概要: Deep Fusion: Efficient Network Training via Pre-trained Initializations

arxiv url: http://arxiv.org/abs/2306.11903v3
Date: Wed, 26 Jun 2024 12:16:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-27 19:53:53.010457
Title: Deep Fusion: Efficient Network Training via Pre-trained Initializations
Title（参考訳）: Deep Fusion: 事前訓練によるネットワークトレーニングの効率化
Authors: Hanna Mazzawi, Xavi Gonzalvo, Michael Wunder, Sammy Jerome, Benoit Dherin,
Abstract要約: 我々は、より小さなネットワークの初期化を事前訓練したネットワークトレーニングの効率的なアプローチであるDeep Fusionを提案する。我々の実験は、Deep Fusionが訓練プロセスを加速するだけでなく、計算要求を減少させる実用的で効果的なアプローチであることを示す。我々は,Deep Fusionの最適利用を導く理論的枠組みを検証し,トレーニング時間と資源消費の両方を著しく削減することを示した。
参考スコア（独自算出の注目度）: 3.9146761527401424
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, deep learning has made remarkable progress in a wide range of domains, with a particularly notable impact on natural language processing tasks. One of the challenges associated with training deep neural networks in the context of LLMs is the need for large amounts of computational resources and time. To mitigate this, network growing algorithms offer potential cost savings, but their underlying mechanisms are poorly understood. We present two notable contributions in this paper. First, we present Deep Fusion, an efficient approach to network training that leverages pre-trained initializations of smaller networks. Second, we propose a theoretical framework using backward error analysis to illustrate the dynamics of mid-training network growth. Our experiments show how Deep Fusion is a practical and effective approach that not only accelerates the training process but also reduces computational requirements, maintaining or surpassing traditional training methods' performance in various NLP tasks and T5 model sizes. Finally, we validate our theoretical framework, which guides the optimal use of Deep Fusion, showing that with carefully optimized training dynamics, it significantly reduces both training time and resource consumption.
Abstract（参考訳）: 近年、ディープラーニングは様々な分野において顕著な進歩を遂げており、特に自然言語処理タスクに顕著な影響を与えている。 LLMの文脈におけるディープニューラルネットワークのトレーニングに関連する課題の1つは、大量の計算リソースと時間の必要性である。これを軽減するために、ネットワーク成長アルゴリズムは潜在的なコスト削減を提供するが、その基盤となるメカニズムは理解されていない。本論文では2つの顕著な貢献について述べる。まず、より小さなネットワークの初期化を事前訓練したネットワークトレーニングの効率的なアプローチであるDeep Fusionを提案する。第2に,学習中のネットワーク成長のダイナミクスを説明するために,後方誤り解析を用いた理論的枠組みを提案する。我々の実験は、Deep Fusionが訓練プロセスを加速するだけでなく、計算要求を低減し、様々なNLPタスクやT5モデルサイズにおける従来の訓練方法のパフォーマンスを維持または超える実践的で効果的なアプローチであることを示している。最後に、Deep Fusionの最適利用を導く理論フレームワークを検証することにより、慎重に最適化されたトレーニングダイナミクスにより、トレーニング時間とリソース消費の両方を著しく削減できることを示す。

関連論文リスト

Going Forward-Forward in Distributed Deep Learning [0.0]
本稿では,Geoffrey Hinton の Forward-Forward (FF) アルゴリズムを用いた分散ディープラーニングにおける新しい手法を提案する。フォワードパスとバックパスに依存する従来の手法とは異なり、FFアルゴリズムはデュアルフォワードパス戦略を採用している。評価の結果,4つの計算ノードを持つ4層ネットワークのトレーニングにおいて,MNISTデータセットの3.75倍の高速化を実現した。
論文参考訳（メタデータ） (2024-03-30T16:02:53Z)
Finding Influencers in Complex Networks: An Effective Deep Reinforcement Learning Approach [13.439099770154952]
本稿では,従来のベストインフルエンスアルゴリズムよりも優れた性能を実現する効果的な強化学習モデルを提案する。具体的には、グラフニューラルネットワークアルゴリズムをエンコーダとして、強化学習をデコーダとして組み合わせたエンドツーエンド学習フレームワークDREIMを設計する。
論文参考訳（メタデータ） (2023-09-09T14:19:00Z)
Exploring Low Rank Training of Deep Neural Networks [49.18122605463354]
低ランクのディープニューラルネットワークのトレーニングは、メモリ消費とトレーニング時間の両方の観点から、非リファクタリングトレーニングよりも効率がよい。我々は、実際にうまく機能する技術を分析し、GPT2のようなモデルに対する広範囲な改善を通じて、この分野における共通の信念を偽示する証拠を提供する。
論文参考訳（メタデータ） (2022-09-27T17:43:45Z)
Training Deep Neural Networks with Joint Quantization and Pruning of Weights and Activations [5.17729871332369]
最先端の量子化技術は現在、ディープニューラルネットワークの重みと活性化の両方に応用されている。本研究では、トレーニング中の深部ニューラルネットワークの重みと活性化の両方に、新しい均一量子化法と非構造化プルーニング法を併用する。
論文参考訳（メタデータ） (2021-10-15T16:14:36Z)
Dynamic Sparse Training for Deep Reinforcement Learning [36.66889208433228]
我々は,ニューラルネットワークをスクラッチから切り離した深層強化学習エージェントを動的に訓練する試みを初めて提案する。私たちのアプローチは、既存の深層強化学習アルゴリズムに簡単に統合できます。我々は,オープンAI体育連続制御タスクに対するアプローチを評価した。
論文参考訳（メタデータ） (2021-06-08T09:57:20Z)
Training Larger Networks for Deep Reinforcement Learning [18.193180866998333]
ネットワーク容量の増加は性能を向上しないことを示す。本稿では,1)DenseNet接続の広いネットワーク,2)RLのトレーニングから表現学習を分離する,3)オーバーフィッティング問題を軽減するための分散トレーニング手法を提案する。この3倍の手法を用いることで、非常に大きなネットワークをトレーニングでき、性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2021-02-16T02:16:54Z)
Sparsity in Deep Learning: Pruning and growth for efficient inference and training in neural networks [78.47459801017959]
Sparsityは、モバイル機器に適合する通常のネットワークのメモリフットプリントを減らすことができる。ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。
論文参考訳（メタデータ） (2021-01-31T22:48:50Z)
Go Wide, Then Narrow: Efficient Training of Deep Thin Networks [62.26044348366186]
本稿では,深層ネットワークを理論的保証で訓練する効率的な手法を提案する。我々の方法でのトレーニングにより、ResNet50はResNet101を上回り、BERT BaseはBERT Largeに匹敵する。
論文参考訳（メタデータ） (2020-07-01T23:34:35Z)
Robust Pruning at Initialization [61.30574156442608]
計算リソースが限られているデバイス上で、機械学習アプリケーションを使用するための、より小さく、エネルギー効率のよいニューラルネットワークの必要性が高まっている。ディープNNにとって、このような手順はトレーニングが困難であり、例えば、ひとつの層が完全に切断されるのを防ぐことができないため、満足できないままである。
論文参考訳（メタデータ） (2020-02-19T17:09:50Z)
Large-Scale Gradient-Free Deep Learning with Recursive Local Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文参考訳（メタデータ） (2020-02-10T16:20:02Z)
Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文参考訳（メタデータ） (2020-02-04T23:03:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。