論文の概要: HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming
- arxiv url: http://arxiv.org/abs/2512.21338v1
- Date: Wed, 24 Dec 2025 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.85801
- Title: HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming
- Title(参考訳): HiStream: 冗長除去ストリーミングによる高分解能高分解能ビデオ生成
- Authors: Haonan Qiu, Shikun Liu, Zijian Zhou, Zhaochong An, Weiming Ren, Zhiheng Liu, Jonas Schult, Sen He, Shoufa Chen, Yuren Cong, Tao Xiang, Ziwei Liu, Juan-Manuel Perez-Rua,
- Abstract要約: HiStreamは、3つの軸にわたる冗長性を体系的に低減する効率的な自動回帰フレームワークである。
1080pのベンチマークでは、主要なHiStreamモデル(i+ii)は最先端のビジュアル品質を実現し、Wan2.1ベースラインと比較して76.2倍高速なデノイングを実現した。
より高速なHiStream+は3つの最適化を全て適用し、ベースライン上で107.5倍の高速化を実現しています。
- 参考スコア(独自算出の注目度): 58.55148690302855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-resolution video generation, while crucial for digital media and film, is computationally bottlenecked by the quadratic complexity of diffusion models, making practical inference infeasible. To address this, we introduce HiStream, an efficient autoregressive framework that systematically reduces redundancy across three axes: i) Spatial Compression: denoising at low resolution before refining at high resolution with cached features; ii) Temporal Compression: a chunk-by-chunk strategy with a fixed-size anchor cache, ensuring stable inference speed; and iii) Timestep Compression: applying fewer denoising steps to subsequent, cache-conditioned chunks. On 1080p benchmarks, our primary HiStream model (i+ii) achieves state-of-the-art visual quality while demonstrating up to 76.2x faster denoising compared to the Wan2.1 baseline and negligible quality loss. Our faster variant, HiStream+, applies all three optimizations (i+ii+iii), achieving a 107.5x acceleration over the baseline, offering a compelling trade-off between speed and quality, thereby making high-resolution video generation both practical and scalable.
- Abstract(参考訳): デジタルメディアやフィルムにとって重要な高解像度ビデオ生成は、拡散モデルの二次的複雑さによって計算的にボトルネックとなり、実用的な推論が実現不可能となる。
これを解決するために,3つの軸間の冗長性を体系的に低減する,効率的な自己回帰フレームワークであるHiStreamを紹介した。
一 空間圧縮 キャッシュされた特徴を有する高分解能で精錬する前に低分解能で装飾すること
二 時間圧縮:一定サイズのアンカーキャッシュを備えたチャンク・バイ・チャンク戦略で、安定した推論速度を確保すること。
三 タイムステップ圧縮 後続のキャッシュ条件のチャンクにより少ないデノナイジングステップを適用すること。
1080pのベンチマークでは、主要なHiStreamモデル(i+ii)は最先端の視覚的品質を達成し、Wan2.1ベースラインよりも76.2倍高速なデノイングと無視可能な品質損失を実現した。
高速なHiStream+は3つの最適化(i+ii+iii)を施し、ベースライン上で107.5倍の高速化を実現し、スピードと品質のトレードオフを提供する。
関連論文リスト
- Less is Enough: Training-Free Video Diffusion Acceleration via Runtime-Adaptive Caching [57.7533917467934]
EasyCacheは、ビデオ拡散モデルのためのトレーニング不要のアクセラレーションフレームワークである。
我々は,OpenSora,Wan2.1,HunyuanVideoなどの大規模ビデオ生成モデルについて包括的な研究を行っている。
提案手法は,従来のベースラインと比較して推定時間を最大2.1-3.3$times$に短縮する。
論文 参考訳(メタデータ) (2025-07-03T17:59:54Z) - Single-step Diffusion for Image Compression at Ultra-Low Bitrates [19.76457078979179]
超低速度で高い知覚品質と高速デコードを実現する画像圧縮のための単一ステップ拡散モデルを提案する。
このアプローチには2つの重要なイノベーションが含まれている。 (i) ベクトル量子残留(VQ-Residual)トレーニング。
圧縮性能は最先端の手法に匹敵し,デコード速度を約50倍向上させる。
論文 参考訳(メタデータ) (2025-06-19T19:53:27Z) - H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models [97.45170082949552]
オートエンコーダ(AE)は、画像およびビデオ生成のための潜時拡散モデルの成功の鍵である。
H3AEはGPUとモバイルで超高圧縮比とリアルタイムデコード速度を達成する。
論文 参考訳(メタデータ) (2025-04-14T17:59:06Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z) - Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - Fast-Vid2Vid: Spatial-Temporal Compression for Video-to-Video Synthesis [40.249030338644225]
映像合成 (Vid2Vid) は, セマンティックマップのシーケンスから写真リアルな映像を生成することで, 顕著な成果を上げている。
Fast-Vid2Vidは20 FPSのリアルタイムパフォーマンスを実現し、1つのV100 GPUで約8倍の計算コストを節約する。
論文 参考訳(メタデータ) (2022-07-11T17:57:57Z) - COMISR: Compression-Informed Video Super-Resolution [76.94152284740858]
ウェブやモバイルデバイスのほとんどのビデオは圧縮され、帯域幅が制限されると圧縮は厳しい。
圧縮によるアーティファクトを導入せずに高解像度コンテンツを復元する圧縮インフォームドビデオ超解像モデルを提案する。
論文 参考訳(メタデータ) (2021-05-04T01:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。