論文の概要: BurTorch: Revisiting Training from First Principles by Coupling Autodiff, Math Optimization, and Systems
- arxiv url: http://arxiv.org/abs/2503.13795v1
- Date: Tue, 18 Mar 2025 00:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:14:21.789173
- Title: BurTorch: Revisiting Training from First Principles by Coupling Autodiff, Math Optimization, and Systems
- Title(参考訳): BurTorch: Autodiff、数学最適化、システムを結合することで、第一原理からトレーニングを再考する
- Authors: Konstantin Burlachenko, Peter Richtárik,
- Abstract要約: BurTorchは、単一ノードワークステーション上でのディープラーニング(DL)トレーニングを最適化するために設計された、コンパクトな高性能フレームワークである。
BurTorchは最小限の設計を採用し、これらの状況下では、古典的なコンパイルされたプログラミング言語がDL研究において重要な役割を果たすことを証明している。
- 参考スコア(独自算出の注目度): 56.16884466478886
- License:
- Abstract: In this work, we introduce BurTorch, a compact high-performance framework designed to optimize Deep Learning (DL) training on single-node workstations through an exceptionally efficient CPU-based backpropagation (Rumelhart et al., 1986; Linnainmaa, 1970) implementation. Although modern DL frameworks rely on compilerlike optimizations internally, BurTorch takes a different path. It adopts a minimalist design and demonstrates that, in these circumstances, classical compiled programming languages can play a significant role in DL research. By eliminating the overhead of large frameworks and making efficient implementation choices, BurTorch achieves orders-of-magnitude improvements in performance and memory efficiency when computing $\nabla f(x)$ on a CPU. BurTorch features a compact codebase designed to achieve two key goals simultaneously. First, it provides a user experience similar to script-based programming environments. Second, it dramatically minimizes runtime overheads. In large DL frameworks, the primary source of memory overhead for relatively small computation graphs $f(x)$ is due to feature-heavy implementations. We benchmarked BurTorch against widely used DL frameworks in their execution modes: JAX (Bradbury et al., 2018), PyTorch (Paszke et al., 2019), TensorFlow (Abadi et al., 2016); and several standalone libraries: Autograd (Maclaurin et al., 2015), Micrograd (Karpathy, 2020), Apple MLX (Hannun et al., 2023). For small compute graphs, BurTorch outperforms best-practice solutions by up to $\times 2000$ in runtime and reduces memory consumption by up to $\times 3500$. For a miniaturized GPT-3 model (Brown et al., 2020), BurTorch achieves up to a $\times 20$ speedup and reduces memory up to $\times 80$ compared to PyTorch.
- Abstract(参考訳): 本稿では,単一ノードワークステーション上でのDeep Learning (DL) トレーニングを,CPUベースのバックプロパゲーション(Rumelhart et al , 1986; Linnainmaa, 1970)により最適化する,コンパクトな高性能フレームワークであるBurTorchを紹介する。
現代的なDLフレームワークはコンパイラライクな最適化に依存しているが、BurTorchは別の道をたどっている。
最小限の設計を採用し、これらの状況下では、古典的なコンパイルされたプログラミング言語がDL研究において重要な役割を果たすことを証明している。
大きなフレームワークのオーバーヘッドを排除し、効率的な実装選択を行うことで、BurTorchはCPU上での$\nabla f(x)$の計算において、パフォーマンスとメモリ効率の桁違いの改善を実現している。
BurTorchは2つの重要な目標を同時に達成するために設計されたコンパクトなコードベースを備えている。
まず、スクリプトベースのプログラミング環境に似たユーザーエクスペリエンスを提供する。
第二に、実行時のオーバーヘッドを劇的に最小化する。
大規模なDLフレームワークでは、比較的小さな計算グラフに対するメモリオーバーヘッドの主源は、$f(x)$である。
JAX (Bradbury et al , 2018), PyTorch (Paszke et al , 2019), TensorFlow (Abadi et al , 2016), Autograd (Maclaurin et al , 2015), Micrograd (Karpathy, 2020), Apple MLX (Hannun et al , 2023) といったスタンドアロンライブラリに対して,BurTorchをベンチマークした。
小さな計算グラフの場合、BurTorchは実行時に最大$\times 2000$、メモリ消費を最大$\times 3500$で改善する。
小型のGPT-3モデル(Brown et al , 2020)では、BurTorchは最大$\times 20$のスピードアップを実現し、PyTorchと比較して最大$\times 80$のメモリ削減を実現している。
関連論文リスト
- Approximate Top-$k$ for Increased Parallelism [1.2557921586915128]
そこで本研究では,バケット付き近似式をk$のアルゴリズムで評価する。
上位$が正確であるという要件を緩和することで、バケット付きアルゴリズムは利用可能な並列性を劇的に向上させることができる。
PyTorch用の高速なバケット付きトップ$実装もリリースしています。
論文 参考訳(メタデータ) (2024-12-05T17:17:28Z) - FRUGAL: Memory-Efficient Optimization by Reducing State Overhead for Scalable Training [51.39495282347475]
我々は、新しいメモリ効率最適化フレームワークであるtextbfF$ull-$textbfR$ank $textbfU$pdates with $textbfG$r$textbfA$dient sp$textbfL$ittingを紹介します。
当社のフレームワークは,GaLoreやBAdamなど,さまざまな低ランク更新選択技術と統合することが可能です。
論文 参考訳(メタデータ) (2024-11-12T14:41:07Z) - Bundle Adjustment in the Eager Mode [14.13835018035969]
我々はPyPoseとシームレスに統合された、熱心に動く Bundle 調整フレームワークを提案する。
提案手法は,2次最適化のために設計されたGPUアクセラレーション,微分可能,スパース演算,リー群およびリー代数演算,線形解法を含む。
提案手法は, GTSAM, g$2$o, Ceresと比較して平均18.5$times$, 22$times$, 23$times$の平均速度アップを実現している。
論文 参考訳(メタデータ) (2024-09-18T17:59:29Z) - Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。
これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文 参考訳(メタデータ) (2024-02-21T09:18:44Z) - PockEngine: Sparse and Efficient Fine-tuning in a Pocket [62.955793932377524]
さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。
PockEngineはスパースバックプロパゲーションをサポートし、測定メモリの節約とレイテンシの削減でモデルをスパース更新する。
注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。
論文 参考訳(メタデータ) (2023-10-26T19:46:11Z) - MAP: Memory-aware Automated Intra-op Parallel Training For Foundation
Models [15.256207550970501]
我々は PyTorch 上に構築された MAP を紹介した。
MAPは既存の手法と比較して、任意のPyTorchモデルのメモリおよび計算統計を生成するのに使いやすいシンボリックプロファイラを提供する。
論文 参考訳(メタデータ) (2023-02-06T07:22:49Z) - CMLCompiler: A Unified Compiler for Classical Machine Learning [2.80798223481966]
CMLは、本番アプリケーションで機械学習パイプラインの半分近くを占めている。
統合されたフレームワークがなければ、ディープラーニング(DL)とCMLのハイブリッドデプロイメントは、厳しいパフォーマンスとポータビリティの問題に悩まされる。
本稿では,CML推論のためのCMLコンパイラ (CML Compiler) の設計について述べる。
論文 参考訳(メタデータ) (2023-01-31T06:38:05Z) - LoopStack: a Lightweight Tensor Algebra Compiler Stack [61.04098601022665]
LoopStackはテンソル操作のためのドメイン固有のコンパイラスタックである。
最先端の機械学習フレームワークのパフォーマンスにマッチし、頻繁なマシンコードを生成する。
メモリフットプリントは非常に小さく、バイナリサイズは245KBで、30K行未満の効率的なコードによって、モバイルや組み込みデバイスでの使用に適している。
論文 参考訳(メタデータ) (2022-05-02T01:57:58Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Memory Optimization for Deep Networks [10.519610439720909]
我々は、ディープネットワークのメモリフットプリントと計算オーバーヘッドを最小化する自動フレームワークMONeTを提案する。
MoneTは、様々なPyTorchモデルのメモリ要求を3倍に減らし、計算のオーバーヘッドは9-16%である。
同じ計算コストで、MONeTは現在の最先端の自動チェックポイントフレームワークよりも1.2-1.8倍少ないメモリを必要とする。
論文 参考訳(メタデータ) (2020-10-27T17:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。