論文の概要: Tri-Accel: Curvature-Aware Precision-Adaptive and Memory-Elastic Optimization for Efficient GPU Usage
- arxiv url: http://arxiv.org/abs/2508.16905v1
- Date: Sat, 23 Aug 2025 05:38:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.245194
- Title: Tri-Accel: Curvature-Aware Precision-Adaptive and Memory-Elastic Optimization for Efficient GPU Usage
- Title(参考訳): Tri-Accel: 効率的なGPU利用のための曲率適応型およびメモリ-弾性最適化
- Authors: Mohsen Sheibanian, Pouya Shaeri, Alimohammad Beigi, Ryan T. Woo, Aryan Keluskar,
- Abstract要約: Tri-Accelは3つのアクセラレーション戦略と、トレーニング中の適応パラメータを併用する統合最適化フレームワークである。
ResNet-18とEfficientNet-B0を搭載したCIFAR-10では、Tri-Accelはトレーニング時間の最大9.9%削減とメモリ使用量の13.3%削減を実現している。
静的混合精度トレーニングと比較して、Tri-Accelは78.1%の精度を維持し、標準ハードウェアのメモリフットプリントを0.35GBから0.31GBに削減している。
- 参考スコア(独自算出の注目度): 0.6511750267058007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks are increasingly bottlenecked by the cost of optimization, both in terms of GPU memory and compute time. Existing acceleration techniques, such as mixed precision, second-order methods, and batch size scaling, are typically used in isolation. We present Tri-Accel, a unified optimization framework that co-adapts three acceleration strategies along with adaptive parameters during training: (1) Precision-Adaptive Updates that dynamically assign mixed-precision levels to layers based on curvature and gradient variance; (2) Sparse Second-Order Signals that exploit Hessian/Fisher sparsity patterns to guide precision and step size decisions; and (3) Memory-Elastic Batch Scaling that adjusts batch size in real time according to VRAM availability. On CIFAR-10 with ResNet-18 and EfficientNet-B0, Tri-Accel achieves up to 9.9% reduction in training time and 13.3% lower memory usage, while improving accuracy by +1.1 percentage points over FP32 baselines. Tested on CIFAR-10/100, our approach demonstrates adaptive learning behavior, with efficiency gradually improving over the course of training as the system learns to allocate resources more effectively. Compared to static mixed-precision training, Tri-Accel maintains 78.1% accuracy while reducing memory footprint from 0.35GB to 0.31GB on standard hardware. The framework is implemented with custom Triton kernels, whose hardware-aware adaptation enables automatic optimization without manual hyperparameter tuning, making it practical for deployment across diverse computational environments. This work demonstrates how algorithmic adaptivity and hardware awareness can be combined to improve scalability in resource-constrained settings, paving the way for more efficient neural network training on edge devices and cost-sensitive cloud deployments.
- Abstract(参考訳): ディープニューラルネットワークは、GPUメモリと計算時間の両方において、最適化のコストによって、ますますボトルネックになっている。
既存の加速技術、例えば混合精度、二階法、バッチサイズスケーリングは、通常孤立して使用される。
トレーニング中の3つのアクセラレーション戦略と適応パラメータを併用する統合最適化フレームワークであるTri-Accelについて,(1)曲率と勾配の分散に基づく層への混合精度レベルを動的に割り当てる精度適応型更新,(2)ヘシアン/フィッシャーの間隔パターンを利用して精度とステップサイズの決定を導出するスパース2次信号,(3)VRAMの可用性に応じてバッチサイズをリアルタイムで調整するメモリ-Elastic Batch Scalingを提案する。
ResNet-18とEfficientNet-B0のCIFAR-10では、トレーニング時間の最大9.9%削減とメモリ使用量の13.3%削減を実現し、FP32ベースラインよりも+1.1ポイントの精度向上を実現している。
CIFAR-10/100をベースとして,本手法は適応的な学習行動を示す。
静的混合精度トレーニングと比較して、Tri-Accelは78.1%の精度を維持し、標準ハードウェアのメモリフットプリントを0.35GBから0.31GBに削減している。
このフレームワークはカスタムのTritonカーネルで実装されており、ハードウェアを意識した適応により、手動のハイパーパラメータチューニングなしで自動最適化が可能であり、様々な計算環境をまたがるデプロイに実用的である。
この研究は、アルゴリズムの適応性とハードウェアの認識を組み合わせることで、リソース制約のある設定のスケーラビリティを向上し、エッジデバイス上でのより効率的なニューラルネットワークトレーニングとコストに敏感なクラウドデプロイメントを実現する方法を示している。
関連論文リスト
- Adacc: An Adaptive Framework Unifying Compression and Activation Recomputation for LLM Training [40.371351103295765]
大きな言語モデル(LLM)のトレーニングは、GPUメモリの制限によって制限されることが多い。
Adaccはアクティベーション再計算とデータ圧縮を統合する最初の適応型メモリ最適化フレームワークである。
Adaccは、最先端のフレームワークと比較して、トレーニングのスループットを1.01倍から1.37倍改善している。
論文 参考訳(メタデータ) (2025-08-01T17:39:25Z) - Impact of Hyperparameter Optimization on the Accuracy of Lightweight Deep Learning Models for Real-Time Image Classification [0.0]
本研究では、7つの効率的なディープラーニングアーキテクチャの精度と収束挙動に及ぼすハイパーパラメータ調整の影響を解析する。
すべてのモデルは、一貫したトレーニング設定の下でImageNet-1Kデータセットでトレーニングされる。
その結果,コサイン学習速度の減衰と調整可能なバッチサイズは精度と収束速度を大きく向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-31T07:47:30Z) - POLARON: Precision-aware On-device Learning and Adaptive Runtime-cONfigurable AI acceleration [0.0]
本研究は,効率的な乗算累積演算を行うSIMD対応マルチ精度MACエンジンを提案する。
このアーキテクチャは、計算精度をワークロードの感度に合わせるための層適応的精度戦略を取り入れている。
その結果,PDPは最大で2倍,資源使用量は3倍に改善した。
論文 参考訳(メタデータ) (2025-06-10T13:33:02Z) - Efficient Federated Learning Using Dynamic Update and Adaptive Pruning with Momentum on Shared Server Data [59.6985168241067]
フェデレートラーニング(FL)は、低トレーニング効率と限られた計算資源の2つの重要な問題に遭遇する。
本稿では,サーバ上の共有不感データとエッジデバイスの分散データを活用するための新しいFLフレームワークであるFedDUMAPを提案する。
提案するFLモデルであるFedDUMAPは,従来の3つの手法を組み合わせることで,ベースラインアプローチと比較して性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-08-11T02:59:11Z) - Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training [62.932299614630985]
本稿では, アクティベーション, ウェイト, 勾配の精度を徐々に向上させる, プログレッシブ分数量子化を統合したFracTrainを提案する。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。