Fugu-MT 論文翻訳(概要): RT-Lynx: Putting the GEMM Sparsity In a Right Way for Diffusion Models

論文の概要: RT-Lynx: Putting the GEMM Sparsity In a Right Way for Diffusion Models

arxiv url: http://arxiv.org/abs/2605.26632v2
Date: Mon, 01 Jun 2026 03:03:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 18:24:16.523802
Title: RT-Lynx: Putting the GEMM Sparsity In a Right Way for Diffusion Models
Title（参考訳）: RT-Lynx:拡散モデルに適した方法でGEMM間隔を設定する
Authors: Xing Cong, Hanlin Tang, Kan Liu, Lan Tao, Lin Qu, Chenhao Xie,
Abstract要約: 重みよりもN:M半構造スペーサー化に対して,DiTの活性化は本質的に疎く,より頑健であることを示す。アクティベーションにN:Mスペーシフィケーションを適用したRT-Lynxを提案する。
参考スコア（独自算出の注目度）: 5.786869511584382
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion Transformers (DiT) achieve strong performance in image generation but incur substantial inference costs. While prior work has reduced this cost via quantization and distillation, semi-structured sparsity, which can nearly halve FLOPs, remains underexplored. A key reason is that most existing approaches focus on weight sparsification, and pruning 50% of the weights can remove critical model capacity and degrade generation quality. Our study, however, shows that DiT activations are intrinsically sparse and significantly more robust to N:M semi-structured sparsification than weights. Motivated by this observation, we advocate a paradigm shift from weight sparsification to activation sparsification. We propose RT-Lynx, which applies N:M sparsification to activations and incorporates error-compensation techniques to mitigate accuracy loss. We further implement highly optimized CUDA kernels tailored to this setting, achieving up to a 1.55x speedup on average in linear layers. Extensive experiments across multiple diffusion models demonstrate that our method preserves the generation quality of the original models while substantially accelerating inference.
Abstract（参考訳）: 拡散変換器(DiT)は画像生成において高い性能を得るが、かなりの推論コストがかかる。以前の作業では、量子化と蒸留によってこのコストを削減したが、FLOPをほぼ半分にできる半構造化された空間は、まだ未調査のままである。主な理由は、既存のほとんどのアプローチが重量の分散に重点を置いており、重量の50%を刈り取ることで、重要なモデルの容量を減らし、生成品質を低下させることができるためである。しかし、本研究では、DiTの活性化は本質的には疎く、重量よりもN:M半構造スパーシフィケーションに対してかなり堅牢であることを示した。この観察を動機として,重量の分散から活性化の分散へのパラダイムシフトを提唱する。アクティベーションにN:Mスペーシフィケーションを適用したRT-Lynxを提案する。さらに、この設定に合わせて高度に最適化されたCUDAカーネルを実装し、線形層の平均1.55倍の高速化を実現した。複数の拡散モデルにまたがる広範囲な実験により,本手法は推論を著しく加速しつつ,原モデルの生成品質を保っていることが示された。

関連論文リスト

$R_\text{dm}$: Re-conceptualizing Distribution Matching as a Reward for Diffusion Distillation [9.105357939499683]
拡散モデルは最先端の生成性能を達成するが、その遅くて反復的なサンプリングプロセスによってボトルネックとなる。最近のアプローチでは、強化学習(RL)を統合して、この天井を壊そうとしている。本稿では,分散マッチングを報酬として再概念化し,$R_textdm$と表記する新しいパラダイムを提案する。
論文参考訳（メタデータ） (2026-03-30T14:01:31Z)
Revisiting Diffusion Models: From Generative Pre-training to One-Step Generation [2.3359837623080613]
本研究は,拡散訓練を生成前訓練の一形態と見なすことができることを示す。パラメータの85%が凍結した事前学習モデルの微調整により、ワンステップ生成モデルを作成する。
論文参考訳（メタデータ） (2025-06-11T03:55:26Z)
Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
低品質データから高品質な生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチであるDSD(Denoising score distillation)を導入する。 DSDはノイズの多い劣化したサンプルにのみ拡散モデルを事前訓練し、精製されたクリーンな出力を生成することができる1ステップの発電機に蒸留する。
論文参考訳（メタデータ） (2025-03-10T17:44:46Z)
Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文参考訳（メタデータ） (2025-02-20T17:51:10Z)
Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。 E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文参考訳（メタデータ） (2024-05-09T17:59:40Z)
Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文参考訳（メタデータ） (2023-11-10T09:10:09Z)
A Theoretical Explanation of Activation Sparsity through Flat Minima and Adversarial Robustness [29.87592869483743]
ブロック内でのアクティベーション間隔の最近の経験的観察は、自由な計算コストを大幅に削減する機会を提供する。本稿では、活性化空間の1つの源としての空間性の概念とそれに基づく理論的説明を提案する。
論文参考訳（メタデータ） (2023-09-06T13:48:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。