論文の概要: WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance
- arxiv url: http://arxiv.org/abs/2509.15130v1
- Date: Thu, 18 Sep 2025 16:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.337077
- Title: WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance
- Title(参考訳): WorldForge: トレーニング不要誘導によるビデオ拡散モデルにおける創発的3D/4D生成のアンロック
- Authors: Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang,
- Abstract要約: 近年の映像拡散モデルでは, 空間知能タスクの潜在的な可能性を示す。
3つの密結合モジュールからなるトレーニング不要な推論時間フレームワークであるWorldForgeを提案する。
本研究は,空間的知性に先立って生成的先行性を活用するための新たな視点を提供する,制御可能なビデオ合成のための新しいプラグイン・アンド・プレイパラダイムを導入する。
- 参考スコア(独自算出の注目度): 17.295532380360992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent video diffusion models demonstrate strong potential in spatial intelligence tasks due to their rich latent world priors. However, this potential is hindered by their limited controllability and geometric inconsistency, creating a gap between their strong priors and their practical use in 3D/4D tasks. As a result, current approaches often rely on retraining or fine-tuning, which risks degrading pretrained knowledge and incurs high computational costs. To address this, we propose WorldForge, a training-free, inference-time framework composed of three tightly coupled modules. Intra-Step Recursive Refinement introduces a recursive refinement mechanism during inference, which repeatedly optimizes network predictions within each denoising step to enable precise trajectory injection. Flow-Gated Latent Fusion leverages optical flow similarity to decouple motion from appearance in the latent space and selectively inject trajectory guidance into motion-related channels. Dual-Path Self-Corrective Guidance compares guided and unguided denoising paths to adaptively correct trajectory drift caused by noisy or misaligned structural signals. Together, these components inject fine-grained, trajectory-aligned guidance without training, achieving both accurate motion control and photorealistic content generation. Extensive experiments across diverse benchmarks validate our method's superiority in realism, trajectory consistency, and visual fidelity. This work introduces a novel plug-and-play paradigm for controllable video synthesis, offering a new perspective on leveraging generative priors for spatial intelligence.
- Abstract(参考訳): 近年の映像拡散モデルでは, 空間知能タスクの潜在的な可能性を示す。
しかし、このポテンシャルは制限された制御性と幾何学的不整合によって妨げられ、3D/4Dタスクにおける強い先行と実践的利用のギャップを生じさせる。
結果として、現在のアプローチはしばしば、事前訓練された知識を劣化させ、高い計算コストを発生させるリスクがある、再訓練や微調整に頼っている。
これを解決するために,3つの密結合モジュールからなるトレーニング不要の推論時間フレームワーク WorldForge を提案する。
In-Step Recursive Refinementは推論中に再帰的な精細化機構を導入し、各デノナイズステップ内のネットワーク予測を繰り返し最適化し、正確な軌道注入を可能にする。
Flow-Gated Latent Fusionは、光学フローの類似性を利用して、潜伏空間の外観から運動を分離し、運動関連チャネルに軌道誘導を選択的に注入する。
Dual-Path Self-Corrective Guidanceは、誘導経路と誘導経路を比較し、ノイズや不整合構造信号による軌道のドリフトを適応的に補正する。
これらのコンポーネントは、トレーニングなしで微粒で軌道に沿ったガイダンスを注入し、正確なモーションコントロールとフォトリアリスティックコンテンツ生成を両立させる。
様々なベンチマークにわたる大規模な実験は、我々の方法が現実主義、軌道整合性、視覚的忠実性に優れていることを検証する。
本研究は,空間的知性に先立って生成的先行性を活用するための新たな視点を提供する,制御可能なビデオ合成のための新しいプラグイン・アンド・プレイパラダイムを導入する。
関連論文リスト
- Zero-shot 3D-Aware Trajectory-Guided image-to-video generation via Test-Time Training [27.251232052868033]
Trajectory-Guided Image-to-Video (I2V) 生成は、ユーザが指定した動画を合成することを目的としている。
Zo3Tは軌道制御されたI2V生成における3次元リアリズムと運動精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-08T14:21:45Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Driving View Synthesis on Free-form Trajectories with Generative Prior [39.24591650300784]
DriveXは、新しいフリーフォーム駆動ビュー合成フレームワークである。
生成を最適化中に3次元ガウスモデルに蒸留する。
記録された軌道を超える高品質なビュー合成をリアルタイムで達成する。
論文 参考訳(メタデータ) (2024-12-02T17:07:53Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models [41.006754386910686]
拡散モデル自体が、トレーニングを必要とせず、生成したコンテンツの適切な制御を可能にしている、と我々は主張する。
ノイズ構成とアテンション計算の両方に関するガイダンスを付与することにより、トラジェクトリ制御可能なビデオ生成を実現するためのチューニング不要のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:59:56Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Trace and Pace: Controllable Pedestrian Animation via Guided Trajectory
Diffusion [83.88829943619656]
本研究では,現実的な歩行者軌跡生成手法と,ユーザ定義目標を達成するために制御可能なフルボディアニメーションを提案する。
我々のガイド付き拡散モデルでは,対象とする経路,速度,特定社会集団による軌道の制約が可能である。
本稿では,アニメーションコントローラのRLトレーニング中に学習した値関数を用いて,拡散を誘導し,特定のシナリオに適した軌道を生成することを提案する。
論文 参考訳(メタデータ) (2023-04-04T15:46:42Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。