論文の概要: PreNeT: Leveraging Computational Features to Predict Deep Neural Network Training Time
- arxiv url: http://arxiv.org/abs/2412.15519v1
- Date: Fri, 20 Dec 2024 03:15:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:23:20.702576
- Title: PreNeT: Leveraging Computational Features to Predict Deep Neural Network Training Time
- Title(参考訳): PreNeT: ディープニューラルネットワークトレーニング時間の予測に計算機能を活用する
- Authors: Alireza Pourali, Arian Boukani, Hamzeh Khazaei,
- Abstract要約: 本稿では,この最適化課題に対処するために設計された新しい予測フレームワークであるPreNeTを紹介する。
PreNeTの重要な特徴は、これまで検討されていなかったハードウェアインフラストラクチャのトレーニング期間を正確に予測する能力である。
実験の結果,PreNeTは現代の最先端フレームワークと比較して,予測精度が最大72%向上していることがわかった。
- 参考スコア(独自算出の注目度): 2.3622884172290255
- License:
- Abstract: Training deep learning models, particularly Transformer-based architectures such as Large Language Models (LLMs), demands substantial computational resources and extended training periods. While optimal configuration and infrastructure selection can significantly reduce associated costs, this optimization requires preliminary analysis tools. This paper introduces PreNeT, a novel predictive framework designed to address this optimization challenge. PreNeT facilitates training optimization by integrating comprehensive computational metrics, including layer-specific parameters, arithmetic operations and memory utilization. A key feature of PreNeT is its capacity to accurately predict training duration on previously unexamined hardware infrastructures, including novel accelerator architectures. This framework employs a sophisticated approach to capture and analyze the distinct characteristics of various neural network layers, thereby enhancing existing prediction methodologies. Through proactive implementation of PreNeT, researchers and practitioners can determine optimal configurations, parameter settings, and hardware specifications to maximize cost-efficiency and minimize training duration. Experimental results demonstrate that PreNeT achieves up to 72% improvement in prediction accuracy compared to contemporary state-of-the-art frameworks.
- Abstract(参考訳): ディープラーニングモデルのトレーニング、特にLarge Language Models (LLMs)のようなTransformerベースのアーキテクチャは、かなりの計算資源と拡張トレーニング期間を必要とする。
最適構成とインフラの選択は関連するコストを大幅に削減するが、この最適化には予備的な分析ツールが必要である。
本稿では,この最適化課題に対処するために設計された新しい予測フレームワークであるPreNeTを紹介する。
PreNeTは、層固有のパラメータ、算術演算、メモリ利用などを含む包括的な計算メトリクスを統合することで、トレーニングの最適化を容易にする。
PreNeTの重要な特徴は、新しいアクセラレーターアーキテクチャを含む、これまで検討されていないハードウェアインフラストラクチャのトレーニング期間を正確に予測する能力である。
このフレームワークは、様々なニューラルネットワーク層の特徴を捕捉し分析するための洗練されたアプローチを採用し、既存の予測手法を強化する。
PreNeTの積極的な実装を通じて、研究者と実践者は、コスト効率を最大化し、トレーニング期間を最小化するために最適な設定、パラメータ設定、ハードウェア仕様を決定することができる。
実験の結果,PreNeTは現代の最先端フレームワークと比較して,予測精度が最大72%向上していることがわかった。
関連論文リスト
- Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - Efficiency optimization of large-scale language models based on deep learning in natural language processing tasks [6.596361762662328]
大規模言語モデルの内部構造と操作機構を理論的に解析する。
我々は、適応最適化アルゴリズム(AdamWなど)、大規模並列計算技術、混合精度訓練戦略の寄与を評価した。
論文 参考訳(メタデータ) (2024-05-20T00:10:00Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - A Graph Deep Learning Framework for High-Level Synthesis Design Space
Exploration [11.154086943903696]
High-Level Synthesisは、アプリケーション固有の高速プロトタイピングのためのソリューションである。
本稿では,加速性能とハードウェアコストを共同で予測するグラフニューラルネットワークHLSを提案する。
提案手法は,一般的なシミュレータと同等の精度で予測できることを示す。
論文 参考訳(メタデータ) (2021-11-29T18:17:45Z) - RANK-NOSH: Efficient Predictor-Based Architecture Search via Non-Uniform
Successive Halving [74.61723678821049]
予算の浪費を回避するため,早期に性能の低いアーキテクチャのトレーニングを終了する階層的スケジューリングアルゴリズムであるNOn-uniform Successive Halving (NOSH)を提案する。
予測器に基づくアーキテクチャ探索をペア比較でランク付けする学習として定式化する。
その結果、RANK-NOSHは検索予算を5倍に削減し、様々な空間やデータセットにおける従来の最先端予測手法よりも、競争力やパフォーマンスの向上を実現した。
論文 参考訳(メタデータ) (2021-08-18T07:45:21Z) - TSO: Curriculum Generation using continuous optimization [0.0]
連続最適化に基づく簡便かつ効率的な手法を提案する。
エンコーダネットワークは、トレーニングシーケンスを連続空間にマップ/組込みする。
予測ネットワークは、戦略の連続表現を入力として使用し、固定ネットワークアーキテクチャの精度を予測する。
論文 参考訳(メタデータ) (2021-06-16T06:32:21Z) - How Powerful are Performance Predictors in Neural Architecture Search? [43.86743225322636]
我々は31の手法を解析し,性能予測器の大規模研究を行った。
予測器の特定のファミリーが組み合わさることで、より優れた予測能力が得られることを示す。
論文 参考訳(メタデータ) (2021-04-02T17:57:16Z) - Genetically Optimized Prediction of Remaining Useful Life [4.115847582689283]
LSTMおよびGRUモデルを実装し、得られた結果と提案された遺伝子訓練ニューラルネットワークを比較します。
遺伝的アルゴリズムを用いた他の最適化層を追加することによって,予測の整合性の向上を期待する。
これらのモデルと提案されたアーキテクチャは、nasaのターボファンジェットエンジンデータセットでテストされている。
論文 参考訳(メタデータ) (2021-02-17T16:09:23Z) - An AI-Assisted Design Method for Topology Optimization Without
Pre-Optimized Training Data [68.8204255655161]
トポロジ最適化に基づくAI支援設計手法を提示し、最適化された設計を直接的に得ることができる。
設計は、境界条件と入力データとしての充填度に基づいて、人工ニューラルネットワーク、予測器によって提供される。
論文 参考訳(メタデータ) (2020-12-11T14:33:27Z) - FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。
高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。
FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文 参考訳(メタデータ) (2020-06-03T05:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。