論文の概要: StableWorld: Towards Stable and Consistent Long Interactive Video Generation
- arxiv url: http://arxiv.org/abs/2601.15281v1
- Date: Wed, 21 Jan 2026 18:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.507205
- Title: StableWorld: Towards Stable and Consistent Long Interactive Video Generation
- Title(参考訳): StableWorld: 安定的で一貫性のある対話型ビデオ生成を目指す
- Authors: Ying Yang, Zhengyao Lv, Tianlin Pan, Haofan Wang, Binxin Yang, Hubery Yin, Chen Li, Ziwei Liu, Chenyang Si,
- Abstract要約: 対話型ビデオ生成における安定性と時間的一貫性の課題について検討する。
本研究では,動的フレーム消去機構であるtextbfStableWorld を提案する。
StableWorldは、ソースへの累積ドリフトを効果的に防止し、インタラクティブな生成の安定性と時間的一貫性を向上する。
- 参考スコア(独自算出の注目度): 45.597087309159456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the overlooked challenge of stability and temporal consistency in interactive video generation, which synthesizes dynamic and controllable video worlds through interactive behaviors such as camera movements and text prompts. Despite remarkable progress in world modeling, current methods still suffer from severe instability and temporal degradation, often leading to spatial drift and scene collapse during long-horizon interactions. To better understand this issue, we initially investigate the underlying causes of instability and identify that the major source of error accumulation originates from the same scene, where generated frames gradually deviate from the initial clean state and propagate errors to subsequent frames. Building upon this observation, we propose a simple yet effective method, \textbf{StableWorld}, a Dynamic Frame Eviction Mechanism. By continuously filtering out degraded frames while retaining geometrically consistent ones, StableWorld effectively prevents cumulative drift at its source, leading to more stable and temporal consistency of interactive generation. Promising results on multiple interactive video models, \eg, Matrix-Game, Open-Oasis, and Hunyuan-GameCraft, demonstrate that StableWorld is model-agnostic and can be applied to different interactive video generation frameworks to substantially improve stability, temporal consistency, and generalization across diverse interactive scenarios.
- Abstract(参考訳): 本稿では、カメラの動きやテキストのプロンプトといったインタラクティブな動作を通じて、動的かつ制御可能な映像世界を合成するインタラクティブビデオ生成における安定性と時間的一貫性の難しさについて考察する。
世界モデリングの顕著な進歩にもかかわらず、現在の手法は依然として深刻な不安定性と時間的劣化に悩まされており、長い水平相互作用の間、しばしば空間的なドリフトとシーンの崩壊を引き起こす。
この問題をより深く理解するために,まずは不安定性の根本原因を解明し,生成したフレームが初期クリーン状態から徐々に逸脱し,後のフレームにエラーを伝播するという,エラー発生の主な原因が同じシーンに由来することを確認した。
そこで本研究では, 動的フレーム消去機構である, シンプルで効果的な方法である \textbf{StableWorld} を提案する。
幾何的に一貫性のあるフレームを維持しながら、劣化したフレームを継続的にフィルタリングすることにより、StableWorldはそのソースでの累積ドリフトを効果的に防止し、インタラクティブな生成の安定性と時間的一貫性を向上する。
複数のインタラクティブなビデオモデルである \eg, Matrix-Game, Open-Oasis, Hunyuan-GameCraft では,StableWorld はモデルに依存しない上に,さまざまなインタラクティブなビデオ生成フレームワークに適用することで,さまざまなインタラクティブなシナリオにおける安定性,時間的一貫性,一般化を大幅に向上させることができる。
関連論文リスト
- FlowAct-R1: Towards Interactive Humanoid Video Generation [37.04996721172613]
FlowAct-R1は、リアルタイムインタラクティブなヒューマノイドビデオ生成用に特別に設計されたフレームワークである。
我々のフレームワークは、480pの解像度で25fpsの安定を実現し、F(Time-to-first-frame)は1.5秒程度しか持たない。
論文 参考訳(メタデータ) (2026-01-15T06:16:22Z) - TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model [53.555353366322464]
我々は,映像生成,動的シーン再構成,長期記憶をクローズドループシステム内で統合するリアルタイム多モード4DワールドモデリングフレームワークTeleWorldを提案する。
提案手法は,動的オブジェクトモデリングと静的シーン表現のシームレスな統合を実現し,現実的でインタラクティブで計算可能な合成システムに向けて世界モデルを推し進める。
論文 参考訳(メタデータ) (2025-12-31T18:31:46Z) - Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation [16.692450893925148]
リアルタイム・ポートレート・アニメーションのためのKnot Forcingという新しいストリーミング・フレームワークを提案する。
Kノットフォーシングは、無限列上の高忠実で時間的に一貫性があり、インタラクティブなポートレートアニメーションを可能にする。
論文 参考訳(メタデータ) (2025-12-25T16:34:56Z) - Occlusion-Aware Temporally Consistent Amodal Completion for 3D Human-Object Interaction Reconstruction [29.807994561746437]
本稿では,モノクロ映像から動的物体間相互作用を再構築するための新しい枠組みを提案する。
本手法は時間的コンテキストを統合し,ビデオシーケンス間のコヒーレンスを漸進的に洗練し,再構成を安定化させる。
難解な単眼ビデオに対する3Dガウススプラッティングによるアプローチの有効性を検証した。
論文 参考訳(メタデータ) (2025-07-10T19:56:10Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。