論文の概要: HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising
- arxiv url: http://arxiv.org/abs/2603.08703v1
- Date: Mon, 09 Mar 2026 17:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.702099
- Title: HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising
- Title(参考訳): HiAR:階層型Denoisingによる効率的な自己回帰長ビデオ生成
- Authors: Kai Zou, Dian Zheng, Hongbo Liu, Tiankai Hang, Bin Liu, Nenghai Yu,
- Abstract要約: HiARは階層的なデノベーションフレームワークで、従来の世代順を逆転させる。
発声ステップ毎に全てのブロックを因果生成し、各ブロックが常に同じノイズレベルでコンテキストで条件付けされるようにする。
VBench(20世代)では、HiARは比較したすべての方法の中で最高の総合スコアと最低時間ドリフトを達成する。
- 参考スコア(独自算出の注目度): 52.237486207964245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive (AR) diffusion offers a promising framework for generating videos of theoretically infinite length. However, a major challenge is maintaining temporal continuity while preventing the progressive quality degradation caused by error accumulation. To ensure continuity, existing methods typically condition on highly denoised contexts; yet, this practice propagates prediction errors with high certainty, thereby exacerbating degradation. In this paper, we argue that a highly clean context is unnecessary. Drawing inspiration from bidirectional diffusion models, which denoise frames at a shared noise level while maintaining coherence, we propose that conditioning on context at the same noise level as the current block provides sufficient signal for temporal consistency while effectively mitigating error propagation. Building on this insight, we propose HiAR, a hierarchical denoising framework that reverses the conventional generation order: instead of completing each block sequentially, it performs causal generation across all blocks at every denoising step, so that each block is always conditioned on context at the same noise level. This hierarchy naturally admits pipelined parallel inference, yielding a 1.8 wall-clock speedup in our 4-step setting. We further observe that self-rollout distillation under this paradigm amplifies a low-motion shortcut inherent to the mode-seeking reverse-KL objective. To counteract this, we introduce a forward-KL regulariser in bidirectional-attention mode, which preserves motion diversity for causal inference without interfering with the distillation loss. On VBench (20s generation), HiAR achieves the best overall score and the lowest temporal drift among all compared methods.
- Abstract(参考訳): 自己回帰(AR)拡散は理論上無限長のビデオを生成するための有望なフレームワークを提供する。
しかし、大きな課題は、エラーの蓄積による漸進的な品質劣化を防止しつつ、時間的連続性を維持することである。
継続性を確保するため、既存の手法は一般に高度に認知された文脈で条件を定めているが、このプラクティスは高い確実性で予測エラーを伝播させ、劣化を悪化させる。
本稿では,高度にクリーンなコンテキストは不要である,と論じる。
コヒーレンスを維持しながらフレームを共有ノイズレベルにデノベートする双方向拡散モデルからインスピレーションを得て、現在のブロックと同じノイズレベルでの条件付けは、エラー伝搬を効果的に軽減しつつ、時間的一貫性のための十分な信号を提供する。
この知見に基づいて,各ブロックを逐次完了させる代わりに,各ブロックが常に同じノイズレベルでコンテキストに条件付けされるように,各ブロックを全てのブロックに因果生成する,階層的な階層化フレームワークであるHiARを提案する。
この階層はパイプライン化された並列推論を当然認めており、4ステップ設定で1.8ウォールクロックのスピードアップをもたらす。
さらに,本パラダイムの下での自己ロールアウト蒸留は,モード探索の逆KL目的に固有のローモーションショートカットを増幅する。
これに対抗するために, 蒸留損失に干渉することなく, 因果推論の動作多様性を保ちながら, 双方向保持モードにおけるフォワード-KLレギュラーを導入する。
VBench(20世代)では、HiARは比較したすべての方法の中で最高の総合スコアと最低時間ドリフトを達成する。
関連論文リスト
- Rejection Mixing: Fast Semantic Propagation of Mask Tokens for Efficient DLLM Inference [58.189320101488725]
DLLMは高速な非自己回帰推論を約束するが、並列デコーディングにおいて厳しい品質と速度のトレードオフを被る。
我々は、連続表現を離散デコードプロセスに統合することでこの問題に対処する。
本稿では,初期マスキング状態と最終復号化トークン状態の中間として,新しい連続混合状態を導入するフレームワークであるReMixを提案する。
論文 参考訳(メタデータ) (2026-02-26T11:08:11Z) - Causality in Video Diffusers is Separable from Denoising [38.11368818072302]
因果関係は、ビデオ、言語、ロボット軌道など、多くの複雑な生成過程の基盤となっている。
現在の因果拡散モデルでは、時間的推論を反復的妄想と結び付け、すべての層に因果的注意を向ける。
これらのモデルにおける因果推論は、多段階の分極過程から分離可能であることを示す。
これらの知見に触発されて、多段階フレームワイドレンダリングから因果トランスフォーマーエンコーダを介して、1フレーム毎の時間的推論を明示的に分離する新しいアーキテクチャであるSCD(Separable Causal Diffusion)を導入する。
論文 参考訳(メタデータ) (2026-02-10T18:57:21Z) - LoL: Longer than Longer, Scaling Video Generation to Hour [50.945885467651216]
この研究は、品質劣化の少ないリアルタイム、ストリーミング、無限長のビデオ生成の最初のデモンストレーションを実現する。
実例として、最大12時間までの連続ビデオを生成し、私たちの知る限り、ストリーミングビデオ生成において最も長く実証された結果の1つである。
論文 参考訳(メタデータ) (2026-01-23T17:21:35Z) - Adaptive Begin-of-Video Tokens for Autoregressive Video Diffusion Models [11.913945404405865]
ほとんどのビデオ拡散モデル(VDM)は自己回帰的な方法でビデオを生成し、それに続く繰り返しフレームを生成する。
本稿では,自動回帰VDMのためのAdaptive Begin-of-Video Tokens(ada-BOV)を提案する。
論文 参考訳(メタデータ) (2025-11-15T08:29:14Z) - CANDI: Hybrid Discrete-Continuous Diffusion Models [36.61898210733147]
ノイズが離散的なデータの分解を2つのメカニズムで示す: 離散的なアイデンティティの破損と連続的なランクの劣化である。
離散的・連続的な腐敗を分離するハイブリッドフレームワークであるCANDIを提案する。
これは離散空間に対する連続拡散の利点を解放する。
論文 参考訳(メタデータ) (2025-10-26T03:24:31Z) - Rolling Forcing: Autoregressive Long Video Diffusion in Real Time [86.40480237741609]
Rolling Forcingは、エラーの最小限の蓄積で長いビデオをストリーミングできる、新しいビデオ生成技術である。
転がり強制力には3つの新しい設計が伴う。第一に、エラー伝播を加速する個別のフレームを反復的にサンプリングする代わりに、共同演示方式を設計する。
第2に,アテンションシンク機構を長軸ストリームビデオ生成タスクに導入し,初期フレームのキー値状態をグローバルなコンテキストアンカーとして保持する。
第3に,大半が拡張された遮音窓上での無段蒸留を可能にする効率的な訓練アルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-09-29T17:57:14Z) - SparseD: Sparse Attention for Diffusion Language Models [98.05780626106555]
拡散言語モデル(DLM)は自己回帰モデル(AR)に代わる有望な代替手段を提供する
既存のオープンソースDLMは、高い推論遅延に悩まされている。
DLMのための新しいスパースアテンション手法であるスパースDを提案する。
論文 参考訳(メタデータ) (2025-09-28T18:10:10Z) - Flow Matching in the Low-Noise Regime: Pathologies and a Contrastive Remedy [19.64681328133978]
フローマッチングは、生成モデリングと表現学習のための連続時間定式化を提供する。
この枠組みは低雑音体制における根本的な不安定性に悩まされていることを示す。
直接速度回帰を小さな雑音レベルにおける対照的な特徴アライメントに置き換えるハイブリッドトレーニングプロトコルであるLocal Contrastive Flow (LCF)を提案する。
論文 参考訳(メタデータ) (2025-09-25T09:36:41Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection [80.20339155618612]
DiffusionADは、再構成サブネットワークとセグメンテーションサブネットワークからなる、新しい異常検出パイプラインである。
高速なワンステップデノゲーションパラダイムは、同等の再現品質を維持しながら、数百倍の加速を達成する。
異常の出現の多様性を考慮し、複数のノイズスケールの利点を統合するためのノルム誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。