論文の概要: SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2605.30409v1
- Date: Thu, 28 May 2026 17:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.150746
- Title: SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer
- Title(参考訳): SANA-Streaming: ハイブリッド拡散変換器を用いたリアルタイムストリーミングビデオ編集
- Authors: Yuyang Zhao, Yicheng Pan, Qiyuan He, Jincheng Yu, Junsong Chen, Tian Ye, Haozhe Liu, Enze Xie, Song Han,
- Abstract要約: リアルタイム・ストリーミング・ビデオ編集はライブ・ブロードキャストやゲームといったインタラクティブ・アプリケーションにとって重要である。
SANA-Streamingは、高解像度でリアルタイムなストリーミングビデオ編集のためのシステムアルゴリズムを共同設計したフレームワークである。
- 参考スコア(独自算出の注目度): 36.01290871589722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time streaming video-to-video editing (V2V) is critical for interactive applications such as live broadcasting and gaming, yet it remains a formidable challenge due to the stringent requirements for temporal consistency and inference throughput. In this paper, we present SANA-Streaming, a system-algorithm co-designed framework for high-resolution, real-time streaming video editing on consumer GPUs, with the following three core designs: (1) Hybrid Diffusion Transformer architecture introduces softmax attention in part of the blocks to improve local modeling capabilities while preserving the efficiency of linear layers. (2) Cycle-Reverse Regularization is a novel training strategy that enforces semantic consistency by predicting source frames from generated content via flow matching, improving temporal consistency without requiring paired long edited videos. (3) Efficient System Co-design combines fused GDN kernels and Mixed-Precision Quantization (MPQ) optimized for the NVIDIA Blackwell (RTX 5090) architecture. By profiling real-world throughput, our MPQ maximizes Tensor Core utilization while maintaining generation quality. The resulting system achieves real-time 1280 x 704 resolution editing at 24 end-to-end FPS on a single RTX 5090 GPU, with the DiT core running at 58 FPS. Experimental results demonstrate that our co-design approach significantly outperforms existing SOTA methods in both temporal coherence and system throughput.
- Abstract(参考訳): リアルタイム・ストリーミング・ビデオ編集(V2V)はライブ・ブロードキャスティングやゲームなどのインタラクティブ・アプリケーションにとって非常に重要であるが、時間的一貫性と推論スループットの厳しい要求のため、依然として大きな課題である。
本稿では,コンシューマGPU上での高解像度リアルタイムストリーミングビデオ編集のためのシステムアルゴリズムであるSANA-Streamingについて述べる。(1)ハイブリッド拡散トランスフォーマーアーキテクチャはブロックの一部にソフトマックスアテンションを導入し,線形層の効率を保ちながら局所モデリング能力を向上する。
2)Cycle-Reverse Regularizationは,フローマッチングによって生成されたコンテンツからソースフレームを予測し,長時間編集されたビデオのペアを必要とせずに時間的一貫性を向上させることによって,セマンティック一貫性を実現する新しいトレーニング戦略である。
(3) GDN カーネルと NVIDIA Blackwell (RTX 5090) アーキテクチャ向けに最適化されたMixed-Precision Quantization (MPQ) を組み合わせる。
実世界のスループットをプロファイリングすることで、MPQは生成品質を維持しながらTensor Coreの利用を最大化します。
このシステムは、1つのRTX 5090 GPU上で24のエンドツーエンドFPSでリアルタイム1280 x 704解像度の編集を実現し、DiTコアは58FPSで動作する。
実験結果から,我々の共同設計手法は時間的コヒーレンスとシステムスループットの両方において,既存のSOTA手法よりも大幅に優れていた。
関連論文リスト
- Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index [11.944339418621693]
因果自己回帰ビデオ生成パイプラインに対するシステムレベルの推論最適化を実装した。
5秒の480Pビデオでは、1.58倍のスピードアップが達成され、リアルタイムインタラクティブアプリケーションに対する効果的なサポートを提供する。
論文 参考訳(メタデータ) (2026-03-02T10:18:18Z) - DiffVC-RT: Towards Practical Real-Time Diffusion-based Perceptual Neural Video Compression [38.495966630021556]
我々は、リアルタイム拡散に基づくニューラルビデオ圧縮(NVC)を実現するための最初のフレームワークであるDiffVC-RTを提案する。
DiffVC-RTは、NVIDIA H800 GPU上の720pビデオに対して、リアルタイムエンコーディングとデコード速度206/30 fpsのHEVCデータセット上で、LPIPSよりもVTM-17.0よりも80.1%のパーセプティカルセーブを実現していることを示す。
論文 参考訳(メタデータ) (2026-01-28T12:59:25Z) - Towards Holistic Modeling for Video Frame Interpolation with Auto-regressive Diffusion Transformers [95.68243351895107]
我々はtextbfVideo textbfFrame textbfInterpolation (LDF-VFI) のための textbfLocal textbfDiffusion textbfForcing for textbfVideo textbfFrame textbfInterpolation (LDF-VFI) という包括的でビデオ中心のパラダイムを提案する。
我々のフレームワークは、ビデオシーケンス全体をモデル化し、長距離時間的コヒーレンスを確保する自動回帰拡散変換器上に構築されている。
LDF-VFIは、挑戦的なロングシーケンスベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-21T12:58:52Z) - StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - Playing with Transformer at 30+ FPS via Next-Frame Diffusion [40.04104312955399]
Next-Frame Diffusion (NFD) は、ブロックワイズ因果的注意を組み込んだ自己回帰拡散変換器である。
視覚的品質とサンプリング効率の両面でNFDが自己回帰ベースラインを上回っていることを示す。
310Mモデルを用いて,A100 GPU上で30フレーム/秒(FPS)以上の自己回帰ビデオ生成を実現する。
論文 参考訳(メタデータ) (2025-06-02T07:16:01Z) - LTX-Video: Realtime Video Latent Diffusion [4.7789714048042775]
LTX-Videoはトランスフォーマーベースの潜在拡散モデルである。
Video-VAEとDenoising Transformerをシームレスに統合する。
Nvidia H100 GPU上では、24fpsのビデオ768 atx512の解像度をわずか2秒で生成する。
論文 参考訳(メタデータ) (2024-12-30T19:00:25Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。