論文の概要: Deep Fusion: Efficient Network Training via Pre-trained Initializations
- arxiv url: http://arxiv.org/abs/2306.11903v1
- Date: Tue, 20 Jun 2023 21:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 15:35:51.751272
- Title: Deep Fusion: Efficient Network Training via Pre-trained Initializations
- Title(参考訳): Deep Fusion: 事前訓練によるネットワークトレーニングの効率化
- Authors: Hanna Mazzawi, Xavi Gonzalvo, Michael Wunder
- Abstract要約: 本稿では,Deep Fusionが学習プロセスを加速し,計算要求を低減し,一般化性能の向上につながることを示す。
実験の結果,Deep Fusionは訓練時間と資源消費を減らすための実用的で効果的なアプローチであることがわかった。
- 参考スコア(独自算出の注目度): 0.7627299398469962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, deep learning has made remarkable progress in a wide range
of domains, with a particularly notable impact on natural language processing
tasks. One of the challenges associated with training deep neural networks is
the need for large amounts of computational resources and time. In this paper,
we present Deep Fusion, an efficient approach to network training that
leverages pre-trained initializations of smaller networks. % We show that Deep
Fusion accelerates the training process, reduces computational requirements,
and leads to improved generalization performance on a variety of NLP tasks and
T5 model sizes. % Our experiments demonstrate that Deep Fusion is a practical
and effective approach to reduce the training time and resource consumption
while maintaining, or even surpassing, the performance of traditional training
methods.
- Abstract(参考訳): 近年、ディープラーニングは様々な分野において顕著な進歩を遂げており、特に自然言語処理タスクに顕著な影響を与えている。
ディープニューラルネットワークのトレーニングに関わる課題のひとつは、大量の計算リソースと時間を必要とすることだ。
本稿では,より小規模なネットワークの初期化を事前学習するネットワークトレーニング手法であるDeep Fusionを提案する。
% では,Deep Fusion がトレーニングプロセスを加速し,計算要求を低減し,様々な NLP タスクや T5 モデルサイズでの一般化性能の向上につながることを示す。
% 実験の結果,Deep Fusion は従来の訓練手法の維持,あるいは超過しながら,訓練時間と資源消費を削減するための実用的で効果的な手法であることがわかった。
関連論文リスト
- Going Forward-Forward in Distributed Deep Learning [0.0]
本稿では,Geoffrey Hinton の Forward-Forward (FF) アルゴリズムを用いた分散ディープラーニングにおける新しい手法を提案する。
フォワードパスとバックパスに依存する従来の手法とは異なり、FFアルゴリズムはデュアルフォワードパス戦略を採用している。
評価の結果,4つの計算ノードを持つ4層ネットワークのトレーニングにおいて,MNISTデータセットの3.75倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-03-30T16:02:53Z) - Finding Influencers in Complex Networks: An Effective Deep Reinforcement
Learning Approach [13.439099770154952]
本稿では,従来のベストインフルエンスアルゴリズムよりも優れた性能を実現する効果的な強化学習モデルを提案する。
具体的には、グラフニューラルネットワークアルゴリズムをエンコーダとして、強化学習をデコーダとして組み合わせたエンドツーエンド学習フレームワークDREIMを設計する。
論文 参考訳(メタデータ) (2023-09-09T14:19:00Z) - Exploring Low Rank Training of Deep Neural Networks [49.18122605463354]
低ランクのディープニューラルネットワークのトレーニングは、メモリ消費とトレーニング時間の両方の観点から、非リファクタリングトレーニングよりも効率がよい。
我々は、実際にうまく機能する技術を分析し、GPT2のようなモデルに対する広範囲な改善を通じて、この分野における共通の信念を偽示する証拠を提供する。
論文 参考訳(メタデータ) (2022-09-27T17:43:45Z) - Training Deep Neural Networks with Joint Quantization and Pruning of
Weights and Activations [5.17729871332369]
最先端の量子化技術は現在、ディープニューラルネットワークの重みと活性化の両方に応用されている。
本研究では、トレーニング中の深部ニューラルネットワークの重みと活性化の両方に、新しい均一量子化法と非構造化プルーニング法を併用する。
論文 参考訳(メタデータ) (2021-10-15T16:14:36Z) - Dynamic Sparse Training for Deep Reinforcement Learning [36.66889208433228]
我々は,ニューラルネットワークをスクラッチから切り離した深層強化学習エージェントを動的に訓練する試みを初めて提案する。
私たちのアプローチは、既存の深層強化学習アルゴリズムに簡単に統合できます。
我々は,オープンAI体育連続制御タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-06-08T09:57:20Z) - Training Larger Networks for Deep Reinforcement Learning [18.193180866998333]
ネットワーク容量の増加は性能を向上しないことを示す。
本稿では,1)DenseNet接続の広いネットワーク,2)RLのトレーニングから表現学習を分離する,3)オーバーフィッティング問題を軽減するための分散トレーニング手法を提案する。
この3倍の手法を用いることで、非常に大きなネットワークをトレーニングでき、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T02:16:54Z) - Sparsity in Deep Learning: Pruning and growth for efficient inference
and training in neural networks [78.47459801017959]
Sparsityは、モバイル機器に適合する通常のネットワークのメモリフットプリントを減らすことができる。
ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。
論文 参考訳(メタデータ) (2021-01-31T22:48:50Z) - Go Wide, Then Narrow: Efficient Training of Deep Thin Networks [62.26044348366186]
本稿では,深層ネットワークを理論的保証で訓練する効率的な手法を提案する。
我々の方法でのトレーニングにより、ResNet50はResNet101を上回り、BERT BaseはBERT Largeに匹敵する。
論文 参考訳(メタデータ) (2020-07-01T23:34:35Z) - Robust Pruning at Initialization [61.30574156442608]
計算リソースが限られているデバイス上で、機械学習アプリケーションを使用するための、より小さく、エネルギー効率のよいニューラルネットワークの必要性が高まっている。
ディープNNにとって、このような手順はトレーニングが困難であり、例えば、ひとつの層が完全に切断されるのを防ぐことができないため、満足できないままである。
論文 参考訳(メタデータ) (2020-02-19T17:09:50Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。