論文の概要: Data optimization for large batch distributed training of deep neural
networks
- arxiv url: http://arxiv.org/abs/2012.09272v2
- Date: Fri, 18 Dec 2020 17:33:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 06:09:46.983653
- Title: Data optimization for large batch distributed training of deep neural
networks
- Title(参考訳): ディープニューラルネットワークの大規模バッチ分散トレーニングのためのデータ最適化
- Authors: Shubhankar Gahlot, Junqi Yin, Mallikarjun Shankar
- Abstract要約: ディープニューラルネットワークの分散トレーニングの現在のプラクティスは、大規模運用における通信ボトルネックの課題に直面している。
本研究では,局所的ミニマの少ない損失環境を暗黙的に平滑化するために,機械学習を用いたデータ最適化手法を提案する。
当社のアプローチでは,機能学習において重要でないデータポイントをフィルタリングすることで,より大きなバッチサイズでのモデルのトレーニングを高速化し,精度の向上を実現しています。
- 参考スコア(独自算出の注目度): 0.19336815376402716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed training in deep learning (DL) is common practice as data and
models grow. The current practice for distributed training of deep neural
networks faces the challenges of communication bottlenecks when operating at
scale, and model accuracy deterioration with an increase in global batch size.
Present solutions focus on improving message exchange efficiency as well as
implementing techniques to tweak batch sizes and models in the training
process. The loss of training accuracy typically happens because the loss
function gets trapped in a local minima. We observe that the loss landscape
minimization is shaped by both the model and training data and propose a data
optimization approach that utilizes machine learning to implicitly smooth out
the loss landscape resulting in fewer local minima. Our approach filters out
data points which are less important to feature learning, enabling us to speed
up the training of models on larger batch sizes to improved accuracy.
- Abstract(参考訳): ディープラーニング(DL)における分散トレーニングは、データやモデルの成長に伴って一般的に行われる。
ディープニューラルネットワークの分散トレーニングの現在のプラクティスは、大規模運用時の通信ボトルネックや、グローバルバッチサイズの増加によるモデルの精度低下といった課題に直面している。
現在のソリューションは、メッセージ交換効率の改善と、トレーニングプロセスにおけるバッチサイズとモデルを調整するテクニックの実装に焦点を当てています。
訓練精度の低下は、通常、損失関数が局所的なミニマに閉じ込められるため起こる。
モデルとトレーニングデータの両方でロスランドスケープ最小化が形成されることを観察し、ローカルミニマを少なくするロスランドスケープを暗黙的に滑らかにするために機械学習を利用するデータ最適化アプローチを提案する。
このアプローチでは、機能学習において重要でないデータポイントをフィルタリングし、より大きなバッチサイズでのモデルのトレーニングを高速化し、精度を向上させる。
関連論文リスト
- KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:49:14Z) - Minibatch training of neural network ensembles via trajectory sampling [0.0]
また,ニューラルネットアンサンブル(NNE)をトラジェクトリ法により高精度に学習するためにも,ミニバッチアプローチが有効であることを示す。
MNISTデータセット内の画像を分類するためにNNEを訓練することで、このアプローチを説明する。
論文 参考訳(メタデータ) (2023-06-23T11:12:33Z) - Adversarial training with informed data selection [53.19381941131439]
アドリアリトレーニングは、これらの悪意のある攻撃からネットワークを守るための最も効率的なソリューションである。
本研究では,ミニバッチ学習に適用すべきデータ選択戦略を提案する。
シミュレーションの結果,ロバスト性および標準精度に関して良好な妥協が得られることがわかった。
論文 参考訳(メタデータ) (2023-01-07T12:09:50Z) - Efficient Augmentation for Imbalanced Deep Learning [8.38844520504124]
本研究では、畳み込みニューラルネットワークの内部表現である不均衡画像データについて検討する。
モデルの特徴埋め込みとテストセットの一般化ギャップを測定し、マイノリティクラスではそのギャップが広いことを示す。
この洞察により、不均衡なデータのための効率的な3相CNNトレーニングフレームワークを設計できる。
論文 参考訳(メタデータ) (2022-07-13T09:43:17Z) - Acceleration of Federated Learning with Alleviated Forgetting in Local
Training [61.231021417674235]
フェデレートラーニング(FL)は、プライバシを保護しながら機械学習モデルの分散最適化を可能にする。
我々は,FedRegを提案する。FedRegは,局所的な訓練段階において,知識を忘れることなくFLを加速するアルゴリズムである。
我々の実験は、FedRegはFLの収束率を著しく改善するだけでなく、特にニューラルネットワークアーキテクチャが深い場合にも改善することを示した。
論文 参考訳(メタデータ) (2022-03-05T02:31:32Z) - Low Precision Decentralized Distributed Training with Heterogeneous Data [5.43185002439223]
トレーニングと推論の計算複雑性を低減することを目的とした,低精度分散トレーニングの収束性を示す。
実験によると、8ビットの分散トレーニングは、不均一なデータであっても、その完全精度と比較して、最小限の精度の損失がある。
論文 参考訳(メタデータ) (2021-11-17T20:48:09Z) - Mixed-Privacy Forgetting in Deep Networks [114.3840147070712]
大規模画像分類タスクにおいてトレーニングされたネットワークの重みからトレーニングサンプルのサブセットの影響を除去できることを示す。
そこで本研究では,混合プライバシー設定における「忘れ」という新しい概念を導入する。
提案手法は,モデル精度のトレードオフを伴わずに忘れることができることを示す。
論文 参考訳(メタデータ) (2020-12-24T19:34:56Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。