論文の概要: Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout
- arxiv url: http://arxiv.org/abs/2511.20649v1
- Date: Tue, 25 Nov 2025 18:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.648559
- Title: Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout
- Title(参考訳): Infinity-RoPE:自己回帰型セルフロールアウトによるアクション制御可能な無限ビデオ生成
- Authors: Hidir Yesiltepe, Tuna Han Salih Meral, Adil Kaan Akan, Kaan Oktay, Pinar Yanardag,
- Abstract要約: $infty$-RoPEは自動回帰ビデオ拡散のための統合された推論時フレームワークである。
ブロック相対論的RoPEは、時間的エンコーディングを移動局所参照フレームとして再構成する。
KV Flushは、グローバルシンクと最後に生成された潜在フレームの2つだけを保持することで、KVキャッシュを更新する。
RoPEカットは、時間的RoPE座標における制御された不連続を導入する。
- 参考スコア(独自算出の注目度): 15.899488263212442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current autoregressive video diffusion models are constrained by three core bottlenecks: (i) the finite temporal horizon imposed by the base model's 3D Rotary Positional Embedding (3D-RoPE), (ii) slow prompt responsiveness in maintaining fine-grained action control during long-form rollouts, and (iii) the inability to realize discontinuous cinematic transitions within a single generation stream. We introduce $\infty$-RoPE, a unified inference-time framework that addresses all three limitations through three interconnected components: Block-Relativistic RoPE, KV Flush, and RoPE Cut. Block-Relativistic RoPE reformulates temporal encoding as a moving local reference frame, where each newly generated latent block is rotated relative to the base model's maximum frame horizon while earlier blocks are rotated backward to preserve relative temporal geometry. This relativistic formulation eliminates fixed temporal positions, enabling continuous video generation far beyond the base positional limits. To obtain fine-grained action control without re-encoding, KV Flush renews the KV cache by retaining only two latent frames, the global sink and the last generated latent frame, thereby ensuring immediate prompt responsiveness. Finally, RoPE Cut introduces controlled discontinuities in temporal RoPE coordinates, enabling multi-cut scene transitions within a single continuous rollout. Together, these components establish $\infty$-RoPE as a training-free foundation for infinite-horizon, controllable, and cinematic video diffusion. Comprehensive experiments show that $\infty$-RoPE consistently surpasses previous autoregressive models in overall VBench scores.
- Abstract(参考訳): 現在の自己回帰ビデオ拡散モデルには3つのボトルネックがある。
一 ベースモデルの回転位置埋め込み(三D-RoPE)による有限時間地平線
(二)長期ロールアウト時のきめ細かい動作制御の緩やかな応答性、及び
三 単世代ストリーム内で不連続な映画遷移を実現することができないこと。
このフレームワークは、3つの相互接続されたコンポーネント(Block-Relativistic RoPE, KV Flush, RoPE Cut)を通して3つの制限に対処する。
ブロック相対論的RoPEは、各新たに生成された潜在ブロックがベースモデルの最大フレーム水平線に対して回転し、前のブロックが後方に回転して相対時間的幾何を保存するように、時間的エンコーディングを移動局所参照フレームとして再構成する。
この相対論的定式化は、固定された時間的位置を排除し、ベース位置限界を超えて連続的なビデオ生成を可能にする。
KV Flushは、2つの潜伏フレーム、グローバルシンクと最後の潜伏フレームのみを保持してKVキャッシュを更新し、即時応答性を確保する。
最後に、RoPE Cutは、時間的RoPE座標における制御された不連続を導入し、単一の連続ロールアウト内でマルチカットシーン遷移を可能にする。
これらのコンポーネントは、無限水平、制御可能、撮影ビデオ拡散のためのトレーニング不要の基礎として$\infty$-RoPEを確立している。
総合的な実験により、$\infty$-RoPEはVBenchのスコア全体において、常に以前の自己回帰モデルを上回ることが示されている。
関連論文リスト
- PAS: A Training-Free Stabilizer for Temporal Encoding in Video LLMs [57.790910044227935]
ビデオLLMは時間的不整合に悩まされ、フレームタイミングの小さなシフトは注意をそらすことができ、関連するフレームを抑えることができる。
本稿では, 位相アグリゲード平滑化(PAS)について述べる。これは, 頭部に小さな反対位相オフセットを適用して, 出力を集約する学習自由機構である。
解析の結果,RoPE回転ロジットは,時間核でスケールしたコンテントドット積として近似でき,このカーネルを滑らかにすることで,小さな時間シフトに対する注意のリプシッツ安定性が得られ,マルチフェーズ平均化は,Nyquist-valid サンプリング下での頭当たりスペクトルを保ちながら高周波リップルを減衰させることがわかった。
論文 参考訳(メタデータ) (2025-11-14T05:56:47Z) - DriveGen3D: Boosting Feed-Forward Driving Scene Generation with Efficient Video Diffusion [62.589889759543446]
DriveGen3Dは、高品質で制御可能な動的3D駆動シーンを生成するための新しいフレームワークである。
本研究は,映像の高速化と大規模動的シーン再構築を融合させることにより,この手法のギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-10-17T03:00:08Z) - Arbitrary Generative Video Interpolation [27.953958715353608]
ビデオフレーム(VFI)は、所定の開始フレームと終了フレームから中間フレームを生成する。
既存のVFI法は、一定数の中間フレームを合成するために制約される。
ArbInterpは、任意のタイムスタンプで効率的な合成を可能にする新しいVFIフレームワークである。
論文 参考訳(メタデータ) (2025-10-01T06:57:10Z) - RAPID^3: Tri-Level Reinforced Acceleration Policies for Diffusion Transformer [86.57077884971478]
ディフュージョントランスフォーマー(DiT)は、視覚発生時に優れるが、遅いサンプリングによって妨げられる。
本稿では,RAPID3: Tri-Level Reinforced Acceleration Policies for Diffusion Transformersを紹介する。
ベースジェネレータの更新をゼロにするイメージワイドアクセラレーションを提供する。
競合する生成品質でサンプリングを3倍近く高速化する。
論文 参考訳(メタデータ) (2025-09-26T13:20:52Z) - VGDFR: Diffusion-based Video Generation with Dynamic Latent Frame Rate [16.826081397057774]
VGDFRは動的遅延フレームレートを持つ拡散型ビデオ生成のためのトレーニング不要のアプローチである。
VGDFRは、画質の劣化を最小限に抑えながら、ビデオ生成において最大3倍の高速化を実現することができることを示す。
論文 参考訳(メタデータ) (2025-04-16T17:09:13Z) - VRoPE: Rotary Position Embedding for Video Large Language Models [20.76019756946152]
テキストベース大規模言語モデル(LLM)における位置埋め込み(RoPE)の性能は高い。
しかし、ビデオフレームの複雑な構造のため、ビデオに拡張することは依然として課題だ。
ビデオLLMに適した新しい位置符号化法である位置ロータリー埋め込み(VRoPE)を提案する。
論文 参考訳(メタデータ) (2025-02-17T10:53:57Z) - VideoRoPE: What Makes for Good Video Rotary Position Embedding? [109.88966080843608]
VideoRoPEは、長いビデオ検索、ビデオ理解、ビデオ幻覚といった様々な下流タスクにまたがって、従来型のRoPEを一貫して上回っている。
VideoRoPEは、周期的振動を緩和するためのテキスト低周波時間割当、空間対称性を維持するためのテキスト対角配置、時間的および空間的インデックスを分離するためのテキスト調整可能な時間間隔を備えている。
論文 参考訳(メタデータ) (2025-02-07T18:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。