論文の概要: The BUTTER Zone: An Empirical Study of Training Dynamics in Fully
Connected Neural Networks
- arxiv url: http://arxiv.org/abs/2207.12547v2
- Date: Mon, 16 Oct 2023 18:40:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 00:43:50.630876
- Title: The BUTTER Zone: An Empirical Study of Training Dynamics in Fully
Connected Neural Networks
- Title(参考訳): バターゾーン:完全連結ニューラルネットワークにおけるトレーニングダイナミクスに関する実証的研究
- Authors: Charles Edison Tripp, Jordan Perr-Sauer, Lucas Hayne, Monte Lunacek,
Jamil Gafur
- Abstract要約: 本稿では,完全接続型フィードフォワードパーセプトロンニューラルネットワークにおけるディープラーニング現象を探索する実験データセットを提案する。
データセットは、483万個の異なるハイパーパラメータ選択のエポックトレーニングと一般化性能を記録している。
各実験を平均24回繰り返すと、1100万回のトレーニングと400億回のエポックが記録された。
- 参考スコア(独自算出の注目度): 0.562479170374811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an empirical dataset surveying the deep learning phenomenon on
fully-connected feed-forward multilayer perceptron neural networks. The
dataset, which is now freely available online, records the per-epoch training
and generalization performance of 483 thousand distinct hyperparameter choices
of architectures, tasks, depths, network sizes (number of parameters), learning
rates, batch sizes, and regularization penalties. Repeating each experiment an
average of 24 times resulted in 11 million total training runs and 40 billion
epochs recorded. Accumulating this 1.7 TB dataset utilized 11 thousand CPU
core-years, 72.3 GPU-years, and 163 node-years. In surveying the dataset, we
observe durable patterns persisting across tasks and topologies. We aim to
spark scientific study of machine learning techniques as a catalyst for the
theoretical discoveries needed to progress the field beyond energy-intensive
and heuristic practices.
- Abstract(参考訳): 完全接続型フィードフォワード多層パーセプトロンニューラルネットワークにおけるディープラーニング現象を探索する実験データセットを提案する。
データセットは現在、オンラインで無料で利用可能であり、アーキテクチャ、タスク、深さ、ネットワークサイズ(パラメータ数)、学習率、バッチサイズ、正規化ペナルティの483の異なるハイパーパラメータのトレーニングと一般化のパフォーマンスを記録している。
各実験を24回繰り返すと、合計1100万回のトレーニング実行と400億エポックを記録した。
この1.7TBデータセットの蓄積には、1万1千のCPUコア年、72.3のGPU年、163のノード年が使用された。
データセットの調査では、タスクやトポロジにまたがる永続的なパターンを観察します。
我々は、エネルギー集約的かつヒューリスティックな実践を超えて分野を前進させるために必要な理論的発見の触媒として、機械学習技術の科学的研究を刺激することを目指している。
関連論文リスト
- Multi-modal Data Fusion and Deep Ensemble Learning for Accurate Crop Yield Prediction [0.0]
本研究では、収穫量を予測するために設計された新しいDeep EnsembleモデルであるRicEns-Netを紹介する。
この研究は、合成開口レーダ(SAR)の使用、センチネル1, 2, 3衛星からの光リモートセンシングデータ、表面温度や降雨などの気象測定に焦点を当てている。
主な目的は、複雑な環境データを扱うことができる機械学習フレームワークを開発することにより、収量予測の精度を高めることである。
論文 参考訳(メタデータ) (2025-02-09T22:48:27Z) - Differentiable architecture search with multi-dimensional attention for spiking neural networks [4.318876451929319]
スパイキングニューラルネットワーク(SNN)は人工知能の分野で大きな人気を集めている。
SNN法の大部分は、ニューラルネットワーク(ANN)の構造を直接継承している。
本稿では,SNNの最適ネットワーク構造探索を直接自動化するために,MA-DARTS(Multi-Attention Differentiable Architecture Search)を提案する。
論文 参考訳(メタデータ) (2024-11-01T07:18:32Z) - Scaling Wearable Foundation Models [54.93979158708164]
センサ基礎モデルのスケーリング特性を計算,データ,モデルサイズにわたって検討する。
最大4000万時間分の心拍数、心拍変動、心電図活動、加速度計、皮膚温度、および1分間のデータを用いて、私たちはLSMを作成します。
この結果から,LSMのスケーリング法則は,時間とセンサの両面において,計算や外挿などのタスクに対して確立されている。
論文 参考訳(メタデータ) (2024-10-17T15:08:21Z) - TENNs-PLEIADES: Building Temporal Kernels with Orthogonal Polynomials [1.1970409518725493]
低レイテンシでオンライン分類と検出を行うために、これらのネットワークをイベントベースのデータで相互接続することに重点を置いている。
我々は3つのイベントベースのベンチマークを実験し、メモリと計算コストを大幅に削減した大きなマージンで3つすべてに対して最先端の結果を得た。
論文 参考訳(メタデータ) (2024-05-20T17:06:24Z) - Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning [50.809769498312434]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文 参考訳(メタデータ) (2023-11-22T03:45:30Z) - Data Augmentations in Deep Weight Spaces [89.45272760013928]
そこで本研究では,Mixup法に基づく新しい拡張手法を提案する。
既存のベンチマークと新しいベンチマークでこれらのテクニックのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-11-15T10:43:13Z) - Exploiting Sparsity in Pruned Neural Networks to Optimize Large Model
Training [1.5301777464637454]
並列深層学習のための2つの一般的なアルゴリズムにおいて,スパースワークを利用してメモリ利用と通信を最適化する手法を提案する。
我々は、並列ディープラーニングのための高度にスケーラブルなフレームワークであるAxoNNにアプローチを統合し、通信時間とメモリ使用量の削減を実証する。
論文 参考訳(メタデータ) (2023-02-10T04:22:25Z) - Accelerating Domain-aware Deep Learning Models with Distributed Training [0.8164433158925593]
モデル性能を改善したドメイン固有知識を利用した分散ドメイン認識ネットワークを提案する。
以上の結果から,最大4.1倍の速さで流出口の流出ピークを効果的に予測した。
提案手法は全体の12.6倍の高速化を実現し,平均予測性能は16%向上した。
論文 参考訳(メタデータ) (2023-01-25T22:59:47Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Deep Learning based Pedestrian Inertial Navigation: Methods, Dataset and
On-Device Inference [49.88536971774444]
慣性測定ユニット(IMU)は小型で安価でエネルギー効率が良く、スマートデバイスや移動ロボットに広く使われている。
正確で信頼性の高い歩行者ナビゲーションをサポートするために慣性データをエクスプロイトすることは、新しいインターネット・オブ・シングス・アプリケーションやサービスにとって重要なコンポーネントである。
我々は、深層学習に基づく慣性ナビゲーション研究のための最初の公開データセットであるOxIOD(OxIOD)を提示、リリースする。
論文 参考訳(メタデータ) (2020-01-13T04:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。