Fugu-MT 論文翻訳(概要): Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels

論文の概要: Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels

arxiv url: http://arxiv.org/abs/2603.22276v1
Date: Mon, 23 Mar 2026 17:57:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-24 19:11:39.83367
Title: Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels
Title（参考訳）: Scaling DoRA: ファクタドノルムとフューズドカーネルによる高ランク適応
Authors: Alexandra Zelenin, Alexandra Zhuravlyova,
Abstract要約: DoRA(Weight-De Low-Rank Adaptation)は、LoRAを方向から分離することで拡張する。 d_in = 8192 とランク r = 384 では、単一のモジュールのノルムは bf16 で512MB の過渡的なワーキングメモリを必要とする。因子ノルムは、二乗ノルムを O(d_out r + r2) 中間体を通して計算可能な基底、交差、およびグラマー項に分解し、密積を除去する。
参考スコア（独自算出の注目度）: 83.99688944263843
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Weight-Decomposed Low-Rank Adaptation (DoRA) extends LoRA by decoupling weight magnitude from direction, but its forward pass requires the row-wise norm of W + sBA, a computation that every major framework we surveyed implements by materializing the dense [d_out, d_in] product BA. At d_in = 8192 and rank r = 384, a single module's norm requires about 512 MB of transient working memory in bf16, making high-rank DoRA costly and often infeasible on common single-GPU setups once hundreds of adapted modules and checkpointing are involved. We present two systems contributions. A factored norm decomposes the squared norm into base, cross, and Gram terms computable through O(d_out r + r^2) intermediates, eliminating the dense product. Fused Triton kernels collapse the four-kernel DoRA composition into a single pass, reducing memory traffic by about 4x and using a numerically stable form that avoids catastrophic cancellation in the near-unity rescaling regime where magnitude scales concentrate in practice. Across six 8-32B vision-language models (VLMs) on three NVIDIA GPUs (RTX 6000 PRO, H200, B200) at r = 384 in bf16, the fused implementation is 1.5-2.0x faster than Hugging Face PEFT's DoRA implementation for inference and 1.5-1.9x faster for gradient computation (optimizer step excluded), with up to 7 GB lower peak VRAM. Microbenchmarks on six GPUs spanning four architecture generations (L40S, A100, RTX 6000 PRO, H200, B200, B300) confirm 1.5-2.7x compose-kernel speedup. Final-logit cosine similarity exceeds 0.9999 across all model/GPU pairs, and multi-seed training curves match within 7.1 x 10^-4 mean per-step loss delta over 2000 steps.
Abstract（参考訳）: 重量分解低ランク適応 (DoRA) は、重量級数を方向から切り離すことで LoRA を拡張するが、その前方通過には W + sBA の行ワイドノルムが必要であり、この計算は、我々が調査したすべての主要なフレームワークが、高密度な [d_out, d_in] 積 BA を実体化する。 d_in = 8192 と rank r = 384 では、単一のモジュールのノルムは bf16 で512MB の過渡的なワーキングメモリを必要とする。私たちは2つのシステムコントリビューションを提示します。因子ノルムは、二乗ノルムを O(d_out r + r^2) 中間体を通して計算可能な基底、交差、およびグラマー項に分解し、密積を除去する。融合したトリトンカーネルは、4カーネルのDRA組成物を1つのパスに分解し、メモリトラフィックを約4倍に削減し、スケールが実際に集中する準ユニティ再スケーリング体制における破滅的なキャンセルを回避する数値的に安定な形式を使用する。 6つのNVIDIA GPU(RTX 6000 PRO, H200, B200)上の8-32Bビジョン言語モデル(VLM)は、bf16のr = 384で、融合実装はHugging Face PEFTのDoRA実装よりも1.5-2.0倍、勾配計算では1.5-1.9倍、最大7GBのピークVRAMを持つ。 4世代にわたる6つのGPU(L40S, A100, RTX 6000 PRO, H200, B200, B300)のマイクロベンチマークでは1.5-2.7xの構成カーネルの高速化が確認されている。最終ログのコサイン類似度はすべてのモデル/GPUペアで0.9999を超え、マルチシードのトレーニング曲線は7.1 x 10^-4の範囲で一致し、ステップ毎の損失差は2000ステップ以上である。

関連論文リスト

Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文参考訳（メタデータ） (2026-03-12T16:00:22Z)
A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA [10.452946241750562]
Gated DeltaNet(GDN)は、成長するKVキャッシュを固定サイズのリカレントステートに置き換える線形アテンションメカニズムである。このボトルネックはアルゴリズムではなくアーキテクチャであることが示され、全てのサブクワッド列モデルはデコード時に 1 FLOP/B 未満の演算強度を示す。オンチップBRAMにおいて,フル2MBのリカレント状態を持続的に保持することにより,このボトルネックを解消するFPGAアクセラレータを提案する。
論文参考訳（メタデータ） (2026-03-06T06:03:38Z)
Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study [0.0]
AMD Instinct MI325X GPUにおけるLCM推定のクロスアーキテクチャ評価 3つのアーキテクチャファミリにまたがる235Bから1兆のパラメータにまたがる4つのモデルのベンチマーク。
論文参考訳（メタデータ） (2026-02-27T13:21:48Z)
Chronicals: A High-Performance Framework for LLM Fine-Tuning with 3.51x Speedup over Unsloth [0.0]
Unsloth上で3.5倍のスピードアップを実現したオープンソースのトレーニングフレームワークであるCentralsを紹介します。オンラインのソフトマックスの正しさ、FlashAttention IO complexity O(N2 d2 M-1)、LoRA+学習速度勾配近似など、完全な数学的基礎を提供する。
論文参考訳（メタデータ） (2026-01-06T00:00:55Z)
Profiling LoRA/QLoRA Fine-Tuning Efficiency on Consumer GPUs: An RTX 4060 Case Study [0.0]
LoRA や QLoRA のようなパラメータ効率のよい手法で微調整された大規模言語モデルは、控えめなハードウェアの適応を可能にしている。本稿では,1台のNVIDIA GTX 4060上でのQwen2.5-1.5B-Instructモデルを用いたLoRA/QLoRAファインチューニングの制御プロファイリングについて述べる。その結果,bf16はfp16と比較して効率が低下するのに対し,ページドではスループットが25%向上した(628 tok/s,500 tok/s)。
論文参考訳（メタデータ） (2025-09-07T21:41:14Z)
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts [9.94373711477696]
GPT-4のようなモノリシックな大規模言語モデル(LLM)は、近代的な生成AIアプリケーションへの道を開いた。現代のAIアクセラレーターの計算-メモリ比の不均等な増加は、メモリウォールを生み出した。コンポジション・オブ・エキスパート(CoE)は、トレーニングと提供のコストと複雑さを下げる代替のモジュラーアプローチである。
論文参考訳（メタデータ） (2024-05-13T07:32:45Z)
QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文参考訳（メタデータ） (2023-10-25T17:24:53Z)
Improving Dual-Encoder Training through Dynamic Indexes for Negative Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文参考訳（メタデータ） (2023-03-27T15:18:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。