論文の概要: WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance
- arxiv url: http://arxiv.org/abs/2509.15130v2
- Date: Sat, 27 Sep 2025 14:42:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 20:10:04.584407
- Title: WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance
- Title(参考訳): WorldForge: トレーニング不要誘導によるビデオ拡散モデルにおける創発的3D/4D生成のアンロック
- Authors: Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang,
- Abstract要約: WorldForgeは3つの密結合モジュールからなるトレーニング不要の推論時間フレームワークである。
我々のフレームワークはプラグアンドプレイとモデル非依存であり、様々な3D/4Dタスクに適用可能である。
- 参考スコア(独自算出の注目度): 17.295532380360992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent video diffusion models show immense potential for spatial intelligence tasks due to their rich world priors, but this is undermined by limited controllability, poor spatial-temporal consistency, and entangled scene-camera dynamics. Existing solutions, such as model fine-tuning and warping-based repainting, struggle with scalability, generalization, and robustness against artifacts. To address this, we propose WorldForge, a training-free, inference-time framework composed of three tightly coupled modules. 1) Intra-Step Recursive Refinement injects fine-grained trajectory guidance at denoising steps through a recursive correction loop, ensuring motion remains aligned with the target path. 2) Flow-Gated Latent Fusion leverages optical flow similarity to decouple motion from appearance in the latent space and selectively inject trajectory guidance into motion-related channels. 3) Dual-Path Self-Corrective Guidance compares guided and unguided denoising paths to adaptively correct trajectory drift caused by noisy or misaligned structural signals. Together, these components inject fine-grained, trajectory-aligned guidance without training, achieving both accurate motion control and photorealistic content generation. Our framework is plug-and-play and model-agnostic, enabling broad applicability across various 3D/4D tasks. Extensive experiments demonstrate that our method achieves state-of-the-art performance in trajectory adherence, geometric consistency, and perceptual quality, outperforming both training-intensive and inference-only baselines.
- Abstract(参考訳): 近年の映像拡散モデルでは, 豊かな世界史から空間知能タスクの可能性が示唆されているが, 制御可能性の制限, 空間的時間的整合性の低下, シーンカメラダイナミックスとの絡み合いによって損なわれている。
モデルファインチューニングやワープベースのリペイント、スケーラビリティとの闘い、一般化、アーティファクトに対する堅牢性といった既存のソリューション。
これを解決するために,3つの密結合モジュールからなるトレーニング不要の推論時間フレームワーク WorldForge を提案する。
1) ステップ内再帰的リファインメントは、再帰的補正ループを介してステップの微粒な軌道誘導を注入し、運動が目標経路に一致し続けることを保証する。
2) Flow-Gated Latent Fusionは,光流の類似性を利用して,潜伏空間の外観から運動を分離し,運動関連チャネルに軌道誘導を選択的に注入する。
3) 二重経路自己補正誘導は, 騒音や不整合構造信号による軌道のドリフトを適応的に補正するために誘導経路と誘導経路を比較した。
これらのコンポーネントは、トレーニングなしで微粒で軌道に沿ったガイダンスを注入し、正確なモーションコントロールとフォトリアリスティックコンテンツ生成を両立させる。
我々のフレームワークはプラグアンドプレイとモデル非依存であり、様々な3D/4Dタスクに適用可能である。
実験により, トラジェクトリの定着, 幾何の整合性, 知覚的品質の両面において, トレーニング集約ベースライン, 推論のみベースラインよりも優れ, 最先端のパフォーマンスが得られた。
関連論文リスト
- Zero-shot 3D-Aware Trajectory-Guided image-to-video generation via Test-Time Training [27.251232052868033]
Trajectory-Guided Image-to-Video (I2V) 生成は、ユーザが指定した動画を合成することを目的としている。
Zo3Tは軌道制御されたI2V生成における3次元リアリズムと運動精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-08T14:21:45Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Driving View Synthesis on Free-form Trajectories with Generative Prior [39.24591650300784]
DriveXは、新しいフリーフォーム駆動ビュー合成フレームワークである。
生成を最適化中に3次元ガウスモデルに蒸留する。
記録された軌道を超える高品質なビュー合成をリアルタイムで達成する。
論文 参考訳(メタデータ) (2024-12-02T17:07:53Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models [41.006754386910686]
拡散モデル自体が、トレーニングを必要とせず、生成したコンテンツの適切な制御を可能にしている、と我々は主張する。
ノイズ構成とアテンション計算の両方に関するガイダンスを付与することにより、トラジェクトリ制御可能なビデオ生成を実現するためのチューニング不要のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:59:56Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Trace and Pace: Controllable Pedestrian Animation via Guided Trajectory
Diffusion [83.88829943619656]
本研究では,現実的な歩行者軌跡生成手法と,ユーザ定義目標を達成するために制御可能なフルボディアニメーションを提案する。
我々のガイド付き拡散モデルでは,対象とする経路,速度,特定社会集団による軌道の制約が可能である。
本稿では,アニメーションコントローラのRLトレーニング中に学習した値関数を用いて,拡散を誘導し,特定のシナリオに適した軌道を生成することを提案する。
論文 参考訳(メタデータ) (2023-04-04T15:46:42Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。