論文の概要: The BUTTER Zone: An Empirical Study of Training Dynamics in Fully
Connected Neural Networks
- arxiv url: http://arxiv.org/abs/2207.12547v2
- Date: Mon, 16 Oct 2023 18:40:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 00:43:50.630876
- Title: The BUTTER Zone: An Empirical Study of Training Dynamics in Fully
Connected Neural Networks
- Title(参考訳): バターゾーン:完全連結ニューラルネットワークにおけるトレーニングダイナミクスに関する実証的研究
- Authors: Charles Edison Tripp, Jordan Perr-Sauer, Lucas Hayne, Monte Lunacek,
Jamil Gafur
- Abstract要約: 本稿では,完全接続型フィードフォワードパーセプトロンニューラルネットワークにおけるディープラーニング現象を探索する実験データセットを提案する。
データセットは、483万個の異なるハイパーパラメータ選択のエポックトレーニングと一般化性能を記録している。
各実験を平均24回繰り返すと、1100万回のトレーニングと400億回のエポックが記録された。
- 参考スコア(独自算出の注目度): 0.562479170374811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an empirical dataset surveying the deep learning phenomenon on
fully-connected feed-forward multilayer perceptron neural networks. The
dataset, which is now freely available online, records the per-epoch training
and generalization performance of 483 thousand distinct hyperparameter choices
of architectures, tasks, depths, network sizes (number of parameters), learning
rates, batch sizes, and regularization penalties. Repeating each experiment an
average of 24 times resulted in 11 million total training runs and 40 billion
epochs recorded. Accumulating this 1.7 TB dataset utilized 11 thousand CPU
core-years, 72.3 GPU-years, and 163 node-years. In surveying the dataset, we
observe durable patterns persisting across tasks and topologies. We aim to
spark scientific study of machine learning techniques as a catalyst for the
theoretical discoveries needed to progress the field beyond energy-intensive
and heuristic practices.
- Abstract(参考訳): 完全接続型フィードフォワード多層パーセプトロンニューラルネットワークにおけるディープラーニング現象を探索する実験データセットを提案する。
データセットは現在、オンラインで無料で利用可能であり、アーキテクチャ、タスク、深さ、ネットワークサイズ(パラメータ数)、学習率、バッチサイズ、正規化ペナルティの483の異なるハイパーパラメータのトレーニングと一般化のパフォーマンスを記録している。
各実験を24回繰り返すと、合計1100万回のトレーニング実行と400億エポックを記録した。
この1.7TBデータセットの蓄積には、1万1千のCPUコア年、72.3のGPU年、163のノード年が使用された。
データセットの調査では、タスクやトポロジにまたがる永続的なパターンを観察します。
我々は、エネルギー集約的かつヒューリスティックな実践を超えて分野を前進させるために必要な理論的発見の触媒として、機械学習技術の科学的研究を刺激することを目指している。
関連論文リスト
- Diffusion-based Neural Network Weights Generation [85.6725307453325]
データセット条件付き事前学習重み抽出による効率よく適応的な伝達学習手法を提案する。
具体的には、ニューラルネットワークの重みを再構築できる変分オートエンコーダを備えた潜時拡散モデルを用いる。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for
Enhanced Dataset Pruning [54.511055635704764]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文 参考訳(メタデータ) (2023-11-22T03:45:30Z) - Data Augmentations in Deep Weight Spaces [89.45272760013928]
そこで本研究では,Mixup法に基づく新しい拡張手法を提案する。
既存のベンチマークと新しいベンチマークでこれらのテクニックのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-11-15T10:43:13Z) - High Throughput Training of Deep Surrogates from Large Ensemble Runs [38.018735015291156]
ディープサロゲートは一般的に、加速しようとする同じソルバによってゆっくりと生成される限られた量のデータから教師付き方法で訓練される。
シミュレーションの大規模な実行から,これらのモデルのオンライントレーニングを可能にするオープンソースフレームワークを提案する。
熱方程式のサロゲートとして完全に接続されたネットワークのトレーニング実験により,提案手法により,従来のオフライン手順に比べて精度が47%向上し,バッチスループットが13倍向上した8TBのデータを2時間でトレーニングすることが可能となった。
論文 参考訳(メタデータ) (2023-09-28T09:34:52Z) - Exploiting Sparsity in Pruned Neural Networks to Optimize Large Model
Training [1.5301777464637454]
並列深層学習のための2つの一般的なアルゴリズムにおいて,スパースワークを利用してメモリ利用と通信を最適化する手法を提案する。
我々は、並列ディープラーニングのための高度にスケーラブルなフレームワークであるAxoNNにアプローチを統合し、通信時間とメモリ使用量の削減を実証する。
論文 参考訳(メタデータ) (2023-02-10T04:22:25Z) - Accelerating Domain-aware Deep Learning Models with Distributed Training [0.8164433158925593]
モデル性能を改善したドメイン固有知識を利用した分散ドメイン認識ネットワークを提案する。
以上の結果から,最大4.1倍の速さで流出口の流出ピークを効果的に予測した。
提案手法は全体の12.6倍の高速化を実現し,平均予測性能は16%向上した。
論文 参考訳(メタデータ) (2023-01-25T22:59:47Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Deep Learning on Real Geophysical Data: A Case Study for Distributed
Acoustic Sensing Research [1.7237878022600697]
地震データから使用可能なエネルギーを識別するために, 微調整, 効率的スケールの深層学習分類器を提案する。
16倍のGPUを使用すれば、5万のデータセット上で2桁以上のトレーニング速度を向上できることを示す。
論文 参考訳(メタデータ) (2020-10-15T15:59:52Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Predicting Neural Network Accuracy from Weights [25.73213712719546]
トレーニングされたニューラルネットワークの精度は、その重みだけを見て驚くほど正確に予測できることを実験的に示す。
この分野のさらなる研究を促進するために、4つの異なるデータセットでトレーニングされた120kの畳み込みニューラルネットワークのコレクションをリリースする。
論文 参考訳(メタデータ) (2020-02-26T13:06:14Z) - Deep Learning based Pedestrian Inertial Navigation: Methods, Dataset and
On-Device Inference [49.88536971774444]
慣性測定ユニット(IMU)は小型で安価でエネルギー効率が良く、スマートデバイスや移動ロボットに広く使われている。
正確で信頼性の高い歩行者ナビゲーションをサポートするために慣性データをエクスプロイトすることは、新しいインターネット・オブ・シングス・アプリケーションやサービスにとって重要なコンポーネントである。
我々は、深層学習に基づく慣性ナビゲーション研究のための最初の公開データセットであるOxIOD(OxIOD)を提示、リリースする。
論文 参考訳(メタデータ) (2020-01-13T04:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。