論文の概要: OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.28691v1
- Date: Wed, 27 May 2026 16:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.206497
- Title: OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning
- Title(参考訳): OSP-Next: スパースシーケンス並列性、HiF8量子化、強化学習による高画質ビデオ生成
- Authors: Yunyang Ge, Xianyi He, Zezhong Zhang, Bin Lin, Bin Zhu, Xinhua Cheng, Li Yuan,
- Abstract要約: OSP-Nextは、疎注意、並列性、量子化、強化学習を統合した効率的なテキスト・ビデオ生成モデルである。
SSPはサブシーケンスをランクに分割し、単一のオールツーオール通信を通じてスパースパターンを切り替える。
実験の結果、OSP-NextはVBenchの総得点が83.73%に達し、Wan2.1ベースラインを上回った。
- 参考スコア(独自算出の注目度): 33.35546431464659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers achieve strong video generation quality, but the quadratic cost of full attention limits efficiency. We introduce OSP-Next, an efficient text-to-video generation model that integrates sparse attention, parallelism, quantization, and reinforcement learning. OSP-Next uses a hybrid full-sparse attention architecture, where the sparse component is implemented with Skiparse-2D Attention. This fixed-pattern mechanism applies token-wise and group-wise sparse attention along spatial dimensions, leveraging locality while maintaining native compatibility with FlashAttention kernels. Based on the local equivalence of rearrangement in Skiparse-2D Attention, we further propose Sparse Sequence Parallelism (SSP), which partitions subsequences across ranks and switches sparse patterns through a single All-to-All communication. Compared with Ulysses Sequence Parallelism (SP), SSP provides a native parallel strategy for sparse attention and reduces communication volume by 75%. OSP-Next also incorporates HiF8 quantization to enable stable joint training with 8-bit quantization and sparse fine-tuning, and applies Mix-GRPO post-training to improve the performance of the sparse model. Experiments show that OSP-Next achieves a VBench total score of 83.73%, surpassing the Wan2.1 baseline. Under the 5-second 720P and 5-second 768P settings, OSP-Next achieves up to 1.64$\times$ single-GPU speedup and over 1.52$\times$ eight-GPU speedup on NVIDIA H200 GPUs. In addition, with only a 0.4% drop in VBench total score, OSP-Next-HiF8 achieves 1.69$\times$ and 2.27$\times$ speedups under the two settings on a single Ascend 950PR, demonstrating the efficiency and performance of OSP-Next across hardware platforms.
- Abstract(参考訳): 拡散変換器は高画質な映像生成を実現するが、フルアテンションの2次コストは効率を抑える。
我々は、疎注意、並列性、量子化、強化学習を統合した効率的なテキスト・ビデオ生成モデルOSP-Nextを紹介する。
OSP-Nextは、Skiparse-2D Attentionでスパースコンポーネントを実装するハイブリッドフルスパースアテンションアーキテクチャを使用している。
この固定パターン機構は、トークンワイドでグループワイドな注意を空間次元に沿って適用し、FlashAttentionカーネルとのネイティブ互換性を維持しながら、局所性を活用する。
SSP(Sparse Sequence Parallelism)はSSP(Sparse Sequence Parallelism)とSSP(Sparse Sequence Parallelism)を併用し,SSP(Sparse Sequence Parallelism)とSSP(Sparse Sequence Parallelism)を分割し,SSP(Sparse Sequence Parallelism)を提案する。
Ulysses Sequence Parallelism (SP)と比較して、SSPは疎注意のためのネイティブ並列戦略を提供し、通信容量を75%削減する。
OSP-Nextは8ビット量子化とスパース微調整による安定なジョイントトレーニングを可能にするためにHiF8量子化も取り入れており、スパースモデルの性能向上にMix-GRPOポストトレーニングを適用している。
実験の結果、OSP-NextはVBenchの総得点が83.73%に達し、Wan2.1ベースラインを上回った。
5秒の720Pと5秒の768P設定では、OSP-Nextは1.64$\times$シングルGPUスピードアップと1.52$\times$8GPUスピードアップをNVIDIA H200 GPU上で達成している。
さらに、VBenchの総スコアは0.4%減少し、OSP-Next-HiF8は1つのAscend 950PRの2つの設定の下で1.69$\times$と2.27$\times$のスピードアップを達成した。
関連論文リスト
- LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation [84.86814271505109]
LongLive-2.0は、長いビデオ生成の完全なトレーニングと推論ワークフロー全体を通じて、NVFP4ベースの並列インフラストラクチャである。
トレーニングには,quence-parallel autoregressive (AR) トレーニングを導入する。
実験ではトレーニングで2.15倍、推論で1.84倍のスピードアップを示す。
論文 参考訳(メタデータ) (2026-05-18T17:57:03Z) - AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising [49.785626309848276]
AsyncDiffは、複数のデバイスにまたがるモデル並列化を可能にする、普遍的でプラグアンドプレイのアクセラレーションスキームである。
安定拡散 v2.1 では、AsyncDiff は2.7倍の速度アップと4.0倍のスピードアップを実現し、CLIPスコアの 0.38 をわずかに削減した。
我々の実験は、AsyncDiffがビデオ拡散モデルに容易に適用でき、性能を向上できることを示した。
論文 参考訳(メタデータ) (2024-06-11T03:09:37Z) - USP: A Unified Sequence Parallelism Approach for Long Context Generative AI [1.973144426163543]
シーケンス並列性(SP)は、生成AIモデルの長期コンテキスト機能をアンロックする鍵となっている。
本稿では,最先端SPアプローチ,すなわちDeepSpeed-UlyssesとRing-Attentionについて検討し,統一SPアプローチを提案する。
LLAMA3-8BモデルトレーニングにSPを用いた2つの8xA800ノードに対して,シーケンス長208Kを用いた47%のMFUを達成した。
論文 参考訳(メタデータ) (2024-05-13T13:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。