論文の概要: HOT: Hadamard-based Optimized Training
- arxiv url: http://arxiv.org/abs/2503.21261v1
- Date: Thu, 27 Mar 2025 08:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:51:42.757102
- Title: HOT: Hadamard-based Optimized Training
- Title(参考訳): HOT:アダマールをベースとした最適化トレーニング
- Authors: Seonggon Kim, Juncheol Shin, Seung-taek Woo, Eunhyeok Park,
- Abstract要約: メモリ使用量と計算オーバーヘッドを減らすためにバックプロパゲーションを最適化することがますます重要になっている。
本稿では,トレーニングコストの最大部分を占める行列乗法に着目し,そのバックプロパゲーションを詳細に分析する。
そこで本研究では,アダマールをベースとしたオプティマイズトレーニング手法を提案する。
このアプローチでは、Hadamard量子化やHadamard低ランク近似などのHadamardに基づく最適化を適用する。
我々の広範な分析によると、HOTは75%のメモリ節約と2.6倍の加速を実現している。
- 参考スコア(独自算出の注目度): 7.193483612237862
- License:
- Abstract: It has become increasingly important to optimize backpropagation to reduce memory usage and computational overhead. Achieving this goal is highly challenging, as multiple objectives must be considered jointly while maintaining training quality. In this paper, we focus on matrix multiplication, which accounts for the largest portion of training costs, and analyze its backpropagation in detail to identify lightweight techniques that offer the best benefits. Based on this analysis, we introduce a novel method, Hadamard-based Optimized Training (HOT). In this approach, we apply Hadamard-based optimizations, such as Hadamard quantization and Hadamard low-rank approximation, selectively and with awareness of the suitability of each optimization for different backward paths. Additionally, we introduce two enhancements: activation buffer compression and layer-wise quantizer selection. Our extensive analysis shows that HOT achieves up to 75% memory savings and a 2.6 times acceleration on real GPUs, with negligible accuracy loss compared to FP32 precision.
- Abstract(参考訳): メモリ使用量と計算オーバーヘッドを減らすためにバックプロパゲーションを最適化することがますます重要になっている。
トレーニング品質を維持しながら、複数の目標を共同で検討する必要があるため、この目標を達成することは極めて難しい。
本稿では,トレーニングコストの最大部分を占める行列乗算に着目し,そのバックプロパゲーションを詳細に分析し,優れたメリットを提供する軽量な手法を同定する。
そこで本研究では,アダマールをベースとしたOptimized Training (HOT) という新しい手法を提案する。
提案手法では,アダマールの量子化やアダマールの低ランク近似などのアダマールに基づく最適化を適用し,各最適化の異なる後方経路への適合性を認識した。
さらに、アクティベーションバッファ圧縮と層ワイド量子化器選択という2つの拡張を導入する。
我々の広範な分析によると、HOTは最大75%のメモリ節約と2.6倍のアクセラレーションを実現しており、FP32の精度に比べて精度の低下は無視できる。
関連論文リスト
- HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs [45.37278584462772]
本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。
提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。
LLAMAファミリーモデルに適用すると、HALOは様々なタスクの微調整中にほぼ完全精度に等しい結果が得られる。
論文 参考訳(メタデータ) (2025-01-05T18:41:54Z) - DiSK: Differentially Private Optimizer with Simplified Kalman Filter for Noise Reduction [57.83978915843095]
本稿では,微分プライベート勾配の性能を著しく向上する新しいフレームワークであるDiSKを紹介する。
大規模トレーニングの実用性を確保するため,Kalmanフィルタプロセスを簡素化し,メモリと計算要求を最小化する。
論文 参考訳(メタデータ) (2024-10-04T19:30:39Z) - Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - HLQ: Fast and Efficient Backpropagation via Hadamard Low-rank Quantization [7.604279380164723]
Adamard Low-rank Quantization (HLQ) と呼ばれる新しい最適化戦略を導入する。
HLQは、畳み込み層と線形層のバックプロパゲーションコストの削減に焦点を当てている。
本実験は,スクラッチトレーニングと微調整トレーニングの両方において,HLQの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-06-21T12:41:41Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - CAME: Confidence-guided Adaptive Memory Efficient Optimization [20.009302737137787]
適応勾配法は大規模言語モデルの訓練において優れた性能を示した。
二次モーメント推定の維持には、メモリオーバーヘッドの増大を高いコストで維持する必要がある。
補助メモリ使用量の大幅な削減を実現するために、いくつかのメモリ効率が提案されているが、性能上のペナルティがある。
我々は,従来の適応手法のように高速収束,メモリ効率の低い2つの目標を同時に達成するために,CAMEを提案する。
論文 参考訳(メタデータ) (2023-07-05T06:05:36Z) - An Empirical Evaluation of Zeroth-Order Optimization Methods on
AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。
ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。
本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文 参考訳(メタデータ) (2022-10-27T01:58:10Z) - Provable Stochastic Optimization for Global Contrastive Learning: Small
Batch Does Not Harm Performance [53.49803579981569]
各正の対と全ての負の対をアンカーポイントで対比する、コントラスト学習のグローバルな目的を考える。
SimCLRのような既存のメソッドは、十分な結果を得るために大きなバッチサイズを必要とする。
本稿では,SogCLRという表現のグローバルコントラスト学習を解くためのメモリ効率の最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-24T22:16:53Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。