論文の概要: AdaHOP: Fast and Accurate Low-Precision Training via Outlier-Pattern-Aware Rotation
- arxiv url: http://arxiv.org/abs/2604.02525v1
- Date: Thu, 02 Apr 2026 21:24:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.210146
- Title: AdaHOP: Fast and Accurate Low-Precision Training via Outlier-Pattern-Aware Rotation
- Title(参考訳): AdaHOP:outlier-Pattern-Aware Rotationによる高速かつ高精度な低精度トレーニング
- Authors: Seonggon Kim, Alireza Khodamoradi, Kristof Denolf, Eunhyeok Park,
- Abstract要約: 低い精度のトレーニングでは、アダマール変換を用いて外れ値を抑制し、量子化誤差を軽減する。
従来の方法では、テンソルにまたがる外部構造にかなりの変化があるにもかかわらず、固定変換を均一に適用していた。
我々は,この戦略が根本的に欠陥があることを示し,AdaHOPを提案する。
- 参考スコア(独自算出の注目度): 11.070767185562817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-precision training (LPT) commonly employs Hadamard transforms to suppress outliers and mitigate quantization error in large language models (LLMs). However, prior methods apply a fixed transform uniformly, despite substantial variation in outlier structures across tensors. Through the first systematic study of outlier patterns across weights, activations, and gradients of LLMs, we show that this strategy is fundamentally flawed: the effectiveness of Hadamard-based suppression depends on how the transform's smoothing direction aligns with the outlier structure of each operand -- a property that varies substantially across layers and computation paths. We characterize these patterns into three types: Row-wise, Column-wise, and None. Each pair requires a tailored transform direction or outlier handling strategy to minimize quantization error. Based on this insight, we propose AdaHOP (Adaptive Hadamard transform with Outlier-Pattern-aware strategy), which assigns each matrix multiplication its optimal strategy: Inner Hadamard Transform (IHT) where inner-dimension smoothing is effective, or IHT combined with selective Outlier Extraction (OE) -- routing dominant outliers to a high-precision path -- where it is not. Combined with hardware-aware Triton kernels, AdaHOP achieves BF16 training quality at MXFP4 precision while delivering up to 3.6X memory compression and 1.8X kernel acceleration} over BF16 full-precision training.
- Abstract(参考訳): 低精度トレーニング (LPT) では、大言語モデル (LLM) において、外れ値の抑制と量子化誤差の軽減にアダマール変換を用いるのが一般的である。
しかし、先行法はテンソル間の外接構造にかなりの変化があるにもかかわらず、固定変換を一様に適用する。
ウェイト,アクティベーション,勾配に関する最初の体系的な研究を通じて,この戦略が根本的に欠陥があることが示される。アダマールに基づく抑制の有効性は,変換の滑らかな方向と各オペランドのアウトリー構造 – 層や計算経路によって大きく異なる特性 – とどのように一致しているかに依存する。
これらのパターンを,Row-wise,Clumn-wise,Noneの3つのタイプに分類する。
各ペアは、量子化誤差を最小限に抑えるために、調整された変換方向または外れ値処理戦略を必要とする。
この知見に基づき、各行列乗法に最適な戦略を割り当てるAdaHOP(Adaptive Hadamard transform with Outlier-Pattern-aware Strategy)を提案する。
AdaHOPはハードウェア対応のTritonカーネルと組み合わせて、MXFP4の精度でBF16のトレーニング品質を達成し、BF16の完全精度トレーニングに対して最大3.6倍のメモリ圧縮と1.8倍のカーネルアクセラレーションを提供する。
関連論文リスト
- Tail-Aware Post-Training Quantization for 3D Geometry Models [58.79500829118265]
ポストトレーニング量子化(PTQ)は、再トレーニングなしに効率的な推論を可能にする。
PTQは複雑な特徴分布と禁止キャリブレーションオーバーヘッドのために、3Dモデルに効果的に転送できない。
3次元幾何学学習のためのTail-Aware Post-Training Quantization PipelineであるTAPTQを提案する。
論文 参考訳(メタデータ) (2026-02-02T07:21:15Z) - MLPMoE: Zero-Shot Architectural Metamorphosis of Dense LLM MLPs into Static Mixture-of-Experts [0.0]
大規模言語モデル(LLM)は、主に高密度トランスフォーマーとしてデプロイされ、すべてのトークンに対してフィードフォワードブロック内の全てのパラメータがアクティブになる。
MoEfication、CMoE、ToMoE、MoOREといった最近のアップサイクリング手法は、高密度フィードフォワードネットワーク内の疎小で半モジュラーなサブ構造に有用な計算の大部分が存在していることを明らかにしている。
本稿では,高密度の変圧器ブロックを静的な高心性混合体に再構成する学習自由変換であるMoE(MLP-Experts)を紹介する。
論文 参考訳(メタデータ) (2025-11-26T06:14:26Z) - Adaptive Layer-Wise Transformations for Post-Training Quantization of Large Language Models [47.54958360970588]
大規模言語モデルは、デプロイメントにかなりの計算資源を必要とする。
効果的な量子化の主な障害は、活性化と重みの体系的な外れ値にある。
本稿では,層ごとの最適変換を体系的に決定する適応変換選択フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-21T22:01:58Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Micro-splatting: Multistage Isotropy-informed Covariance Regularization Optimization for High-Fidelity 3D Gaussian Splatting [1.5582756275568836]
マイクロスプレイティング(Micro-Splatting)は、モデル複雑性を大幅に削減しつつ、視覚的詳細を保存する、統合されたトレーニング中のパイプラインである。
4つのオブジェクト中心のベンチマークでは、Micro-Splattingはスプレート数とモデルサイズを60%まで削減し、トレーニングを20%短縮する。
その結果、マイクロスプレイティングは、単一で効率的でエンドツーエンドのフレームワークにおいて、コンパクト性と高忠実性の両方を提供することを示した。
論文 参考訳(メタデータ) (2025-04-08T07:15:58Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.67982828148859]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs [40.48697728884967]
大規模言語モデル(LLM)の量子化は、特に外部アクティベーションの存在により、大きな課題に直面している。
伝統的なアプローチは、比較的大きな大きさの全てのトークンをまたいだ活性化であるノーマル・アウトリエに主に対応している。
DuQuantは回転変換と置換変換を利用して、大量および正常な外れ値の両方をより効果的に緩和する新しいアプローチである。
論文 参考訳(メタデータ) (2024-06-03T18:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。