論文の概要: Deep Fusion: Efficient Network Training via Pre-trained Initializations
- arxiv url: http://arxiv.org/abs/2306.11903v2
- Date: Wed, 7 Feb 2024 17:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 20:38:32.329386
- Title: Deep Fusion: Efficient Network Training via Pre-trained Initializations
- Title(参考訳): Deep Fusion: 事前訓練によるネットワークトレーニングの効率化
- Authors: Hanna Mazzawi, Xavi Gonzalvo, Michael Wunder, Sammy Jerome, Benoit
Dherin
- Abstract要約: 我々は、より小さなネットワークの初期化を事前訓練したネットワークトレーニングの効率的なアプローチであるDeep Fusionを提案する。
我々の実験は、Deep Fusionが訓練プロセスを加速するだけでなく、計算要求を減少させる実用的で効果的なアプローチであることを示す。
我々は,Deep Fusionの最適利用を導く理論的枠組みを検証し,トレーニング時間と資源消費の両方を著しく削減することを示した。
- 参考スコア(独自算出の注目度): 4.199844472131922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, deep learning has made remarkable progress in a wide range
of domains, with a particularly notable impact on natural language processing
tasks. One of the challenges associated with training deep neural networks in
the context of LLMs is the need for large amounts of computational resources
and time. To mitigate this, network growing algorithms offer potential cost
savings, but their underlying mechanisms are poorly understood. We present two
notable contributions in this paper. First, we present Deep Fusion, an
efficient approach to network training that leverages pre-trained
initializations of smaller networks. Second, we propose a theoretical framework
using backward error analysis to illustrate the dynamics of mid-training
network growth. Our experiments show how Deep Fusion is a practical and
effective approach that not only accelerates the training process but also
reduces computational requirements, maintaining or surpassing traditional
training methods' performance in various NLP tasks and T5 model sizes. Finally,
we validate our theoretical framework, which guides the optimal use of Deep
Fusion, showing that with carefully optimized training dynamics, it
significantly reduces both training time and resource consumption.
- Abstract(参考訳): 近年、ディープラーニングは様々な分野において顕著な進歩を遂げており、特に自然言語処理タスクに顕著な影響を与えている。
LLMの文脈におけるディープニューラルネットワークのトレーニングに関連する課題の1つは、大量の計算リソースと時間の必要性である。
これを軽減するために、ネットワーク成長アルゴリズムは潜在的なコスト削減を提供するが、その基盤となるメカニズムは理解されていない。
この論文には2つの重要な貢献がある。
まず,より小さなネットワークの事前学習初期化を活用したネットワークトレーニングの効率的なアプローチであるdeep fusionを提案する。
第二に, 学習中のネットワーク成長のダイナミクスを説明するために, 後方誤差解析を用いた理論的枠組みを提案する。
我々の実験は、Deep Fusionがトレーニングプロセスを加速するだけでなく、計算要求を低減し、様々なNLPタスクやT5モデルサイズにおける従来のトレーニングメソッドのパフォーマンスを維持または超える実践的で効果的なアプローチであることを示す。
最後に,deep fusionの最適利用を導く理論的枠組みを検証することで,トレーニングダイナミクスを慎重に最適化することで,トレーニング時間とリソース消費の両方を大幅に削減できることを示した。
関連論文リスト
- Going Forward-Forward in Distributed Deep Learning [0.0]
本稿では,Geoffrey Hinton の Forward-Forward (FF) アルゴリズムを用いた分散ディープラーニングにおける新しい手法を提案する。
フォワードパスとバックパスに依存する従来の手法とは異なり、FFアルゴリズムはデュアルフォワードパス戦略を採用している。
評価の結果,4つの計算ノードを持つ4層ネットワークのトレーニングにおいて,MNISTデータセットの3.75倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-03-30T16:02:53Z) - Finding Influencers in Complex Networks: An Effective Deep Reinforcement
Learning Approach [13.439099770154952]
本稿では,従来のベストインフルエンスアルゴリズムよりも優れた性能を実現する効果的な強化学習モデルを提案する。
具体的には、グラフニューラルネットワークアルゴリズムをエンコーダとして、強化学習をデコーダとして組み合わせたエンドツーエンド学習フレームワークDREIMを設計する。
論文 参考訳(メタデータ) (2023-09-09T14:19:00Z) - Exploring Low Rank Training of Deep Neural Networks [49.18122605463354]
低ランクのディープニューラルネットワークのトレーニングは、メモリ消費とトレーニング時間の両方の観点から、非リファクタリングトレーニングよりも効率がよい。
我々は、実際にうまく機能する技術を分析し、GPT2のようなモデルに対する広範囲な改善を通じて、この分野における共通の信念を偽示する証拠を提供する。
論文 参考訳(メタデータ) (2022-09-27T17:43:45Z) - Training Deep Neural Networks with Joint Quantization and Pruning of
Weights and Activations [5.17729871332369]
最先端の量子化技術は現在、ディープニューラルネットワークの重みと活性化の両方に応用されている。
本研究では、トレーニング中の深部ニューラルネットワークの重みと活性化の両方に、新しい均一量子化法と非構造化プルーニング法を併用する。
論文 参考訳(メタデータ) (2021-10-15T16:14:36Z) - Dynamic Sparse Training for Deep Reinforcement Learning [36.66889208433228]
我々は,ニューラルネットワークをスクラッチから切り離した深層強化学習エージェントを動的に訓練する試みを初めて提案する。
私たちのアプローチは、既存の深層強化学習アルゴリズムに簡単に統合できます。
我々は,オープンAI体育連続制御タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-06-08T09:57:20Z) - Training Larger Networks for Deep Reinforcement Learning [18.193180866998333]
ネットワーク容量の増加は性能を向上しないことを示す。
本稿では,1)DenseNet接続の広いネットワーク,2)RLのトレーニングから表現学習を分離する,3)オーバーフィッティング問題を軽減するための分散トレーニング手法を提案する。
この3倍の手法を用いることで、非常に大きなネットワークをトレーニングでき、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T02:16:54Z) - Sparsity in Deep Learning: Pruning and growth for efficient inference
and training in neural networks [78.47459801017959]
Sparsityは、モバイル機器に適合する通常のネットワークのメモリフットプリントを減らすことができる。
ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。
論文 参考訳(メタデータ) (2021-01-31T22:48:50Z) - Go Wide, Then Narrow: Efficient Training of Deep Thin Networks [62.26044348366186]
本稿では,深層ネットワークを理論的保証で訓練する効率的な手法を提案する。
我々の方法でのトレーニングにより、ResNet50はResNet101を上回り、BERT BaseはBERT Largeに匹敵する。
論文 参考訳(メタデータ) (2020-07-01T23:34:35Z) - Robust Pruning at Initialization [61.30574156442608]
計算リソースが限られているデバイス上で、機械学習アプリケーションを使用するための、より小さく、エネルギー効率のよいニューラルネットワークの必要性が高まっている。
ディープNNにとって、このような手順はトレーニングが困難であり、例えば、ひとつの層が完全に切断されるのを防ぐことができないため、満足できないままである。
論文 参考訳(メタデータ) (2020-02-19T17:09:50Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。