論文の概要: PerpetualWonder: Long-Horizon Action-Conditioned 4D Scene Generation
- arxiv url: http://arxiv.org/abs/2602.04876v1
- Date: Wed, 04 Feb 2026 18:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.700512
- Title: PerpetualWonder: Long-Horizon Action-Conditioned 4D Scene Generation
- Title(参考訳): Perpetual Wonder:ロングホライゾンアクションコンディション4Dシーンジェネレーション
- Authors: Jiahao Zhan, Zizhang Li, Hong-Xing Yu, Jiajun Wu,
- Abstract要約: PerpetualWonderは、1枚の画像から長時間のアクション条件付き4Dシーンを生成するハイブリッド生成シミュレータである。
物理的な状態と視覚的プリミティブのリンクを生成する新しい統一された表現が特徴であり、生成的洗練により、ダイナミクスと外観の両方を修正できる。
- 参考スコア(独自算出の注目度): 25.31649834468475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce PerpetualWonder, a hybrid generative simulator that enables long-horizon, action-conditioned 4D scene generation from a single image. Current works fail at this task because their physical state is decoupled from their visual representation, which prevents generative refinements to update the underlying physics for subsequent interactions. PerpetualWonder solves this by introducing the first true closed-loop system. It features a novel unified representation that creates a bidirectional link between the physical state and visual primitives, allowing generative refinements to correct both the dynamics and appearance. It also introduces a robust update mechanism that gathers supervision from multiple viewpoints to resolve optimization ambiguity. Experiments demonstrate that from a single image, PerpetualWonder can successfully simulate complex, multi-step interactions from long-horizon actions, maintaining physical plausibility and visual consistency.
- Abstract(参考訳): PerpetualWonderは、1つの画像から長時間のアクション条件付き4Dシーンを生成できるハイブリッド生成シミュレータである。
現在の作業は、その物理状態が視覚的表現から切り離されているため、その後の相互作用のために基礎となる物理を更新する生成的洗練を妨げているため、このタスクで失敗する。
PerpetualWonderは、最初の真の閉ループシステムを導入することで、この問題を解決する。
物理的な状態と視覚的プリミティブの間に双方向のリンクを作る新しい統一された表現が特徴であり、生成的洗練により、ダイナミクスと外観の両方を修正できる。
また、最適化の曖昧さを解決するために、複数の視点から監督を集める堅牢な更新メカニズムも導入されている。
実験により、PerpetualWonderは単一の画像から、長い水平動作から複雑な多段階の相互作用をシミュレートし、物理的妥当性と視覚的整合性を維持することができた。
関連論文リスト
- VHOI: Controllable Video Generation of Human-Object Interactions from Sparse Trajectories via Motion Densification [65.15340059997273]
VHOIは、ビデオにおける現実的な人間とオブジェクトの相互作用を作成するためのフレームワークである。
そこで本研究では,人体と物体の運動だけでなく,身体部分特異的な動特性も識別するために,色エンコーディングを用いた新しいHOI対応動作表現を提案する。
実験は、制御可能なHOIビデオ生成における最先端の結果を示す。
論文 参考訳(メタデータ) (2025-12-10T13:40:24Z) - SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation [50.792027578906804]
本稿では,高調波とコヒーレントなアニメーションを実現するR2V(Image-to-Video)パラダイムベースのフレームワークであるSteadyDancerを紹介する。
実験により,SteadyDancerは外観の忠実さとモーションコントロールの両方において最先端の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-24T17:15:55Z) - PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - FantasyHSI: Video-Generation-Centric 4D Human Synthesis In Any Scene through A Graph-based Multi-Agent Framework [10.386464385736842]
HSI(Human-Scene Interaction)は、複雑な環境の中で現実的な人間の行動を生成する。
HSIは、長期の高レベルのタスクの処理と、見えないシーンへの一般化において、課題に直面している。
本稿では,ビデオ生成とマルチエージェントシステムを中心とした新しいHSIフレームワークであるFantasyHSIを紹介する。
論文 参考訳(メタデータ) (2025-09-01T08:20:50Z) - DSG-World: Learning a 3D Gaussian World Model from Dual State Videos [14.213608866611784]
本稿では,Dual Stateの観測から3次元ガウス世界モデルを明示的に構築する,新しいエンドツーエンドフレームワークDSG-Worldを提案する。
提案手法は、二分割対応ガウス場を構築し、双方向の測光および意味的整合性を実現する。
論文 参考訳(メタデータ) (2025-06-05T16:33:32Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。