論文の概要: Captain Safari: A World Engine
- arxiv url: http://arxiv.org/abs/2511.22815v1
- Date: Fri, 28 Nov 2025 00:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.733733
- Title: Captain Safari: A World Engine
- Title(参考訳): Captain Safari: World Engine
- Authors: Yu-Cheng Chou, Xingrui Wang, Yitong Li, Jiahao Wang, Hanting Liu, Cihang Xie, Alan Yuille, Junfei Xiao,
- Abstract要約: ポーズ条件付きワールドエンジンであるCaptain Safariを紹介し、永続的なワールドメモリからビデオを取得する。
カメラパスが与えられた場合、ダイナミックなローカルメモリを保持し、レトリバーを使用してポーズ整列ワールドトークンをフェッチし、軌道に沿ってビデオ生成を条件付ける。
ビデオの質、3Dの一貫性、そして後続の軌道で、Captain Safariは最先端のカメラ制御ジェネレータを大幅に上回っている。
- 参考スコア(独自算出の注目度): 38.0569196690842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World engines aim to synthesize long, 3D-consistent videos that support interactive exploration of a scene under user-controlled camera motion. However, existing systems struggle under aggressive 6-DoF trajectories and complex outdoor layouts: they lose long-range geometric coherence, deviate from the target path, or collapse into overly conservative motion. To this end, we introduce Captain Safari, a pose-conditioned world engine that generates videos by retrieving from a persistent world memory. Given a camera path, our method maintains a dynamic local memory and uses a retriever to fetch pose-aligned world tokens, which then condition video generation along the trajectory. This design enables the model to maintain stable 3D structure while accurately executing challenging camera maneuvers. To evaluate this setting, we curate OpenSafari, a new in-the-wild FPV dataset containing high-dynamic drone videos with verified camera trajectories, constructed through a multi-stage geometric and kinematic validation pipeline. Across video quality, 3D consistency, and trajectory following, Captain Safari substantially outperforms state-of-the-art camera-controlled generators. It reduces MEt3R from 0.3703 to 0.3690, improves AUC@30 from 0.181 to 0.200, and yields substantially lower FVD than all camera-controlled baselines. More importantly, in a 50-participant, 5-way human study where annotators select the best result among five anonymized models, 67.6% of preferences favor our method across all axes. Our results demonstrate that pose-conditioned world memory is a powerful mechanism for long-horizon, controllable video generation and provide OpenSafari as a challenging new benchmark for future world-engine research.
- Abstract(参考訳): 世界エンジンは、ユーザーが制御するカメラモーション下でのシーンのインタラクティブな探索を支援する3D一貫性のある長いビデオの合成を目指している。
しかし、既存のシステムは攻撃的な6-DoF軌道と複雑な屋外配置で苦労し、長距離の幾何学的コヒーレンスを失うか、目標経路から逸脱するか、過度に保守的な動きに崩壊する。
この目的のために、永続的なワールドメモリからビデオを取得することでビデオを生成する、ポーズ条件付きワールドエンジンであるCaptain Safariを紹介する。
カメラパスが与えられた場合、ダイナミックなローカルメモリを保持し、レトリバーを使用してポーズ整列ワールドトークンをフェッチし、軌道に沿ってビデオ生成を条件付ける。
この設計により、モデルは安定した3D構造を維持しつつ、挑戦的なカメラ操作を正確に実行することができる。
この設定を評価するために,多段階の幾何学的およびキネマティックな検証パイプラインによって構築された,高ダイナミックなドローンビデオとカメラ軌跡を検証した新たなFPVデータセットであるOpenSafariをキュレートした。
ビデオの質、3Dの一貫性、そして後続の軌道で、Captain Safariは最先端のカメラ制御ジェネレータを大幅に上回っている。
MEt3R を 0.3703 から 0.3690 に減らし、AUC@30 を 0.181 から 0.200 に改善し、全てのカメラ制御ベースラインよりもかなり低い FVD を生成する。
さらに重要なことは、匿名化された5つのモデルの中でアノテータが最良の結果を選択する、50人の参加者による5方向の人間の研究において、選好の67.6%がすべての軸で私たちの方法を好む。
この結果から,ポーズ条件付きワールドメモリは,長期的かつ制御可能なビデオ生成の強力なメカニズムであり,将来的なワールドエンジニアリング研究の新たなベンチマークとしてOpenSafariを提供することを示す。
関連論文リスト
- ViPE: Video Pose Engine for 3D Geometric Perception [89.29576047606703]
ViPEは、便利で多用途なビデオ処理エンジンである。
それは、制約のない生のビデオから、カメラの内在、カメラの動き、および密集した近距離マップを効率的に推定する。
ViPEを使って大規模なビデオのアノテートを行います。
論文 参考訳(メタデータ) (2025-08-12T18:39:13Z) - Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation [66.95956271144982]
本稿では,単一画像から一貫した3Dポイントクラウドシーケンスを生成する新しいビデオ拡散フレームワークであるVoyagerを紹介する。
既存のアプローチとは異なり、Voyagerはフレーム間で固有の一貫性を持って、エンドツーエンドのシーン生成と再構築を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:59:04Z) - WorldExplorer: Towards Generating Fully Navigable 3D Scenes [48.16064304951891]
WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。
私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。
我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
論文 参考訳(メタデータ) (2025-06-02T15:41:31Z) - Learning Camera Movement Control from Real-World Drone Videos [25.10006841389459]
既存のAIビデオ撮影手法は、シミュレーショントレーニングにおいて、外観の多様性が限られている。
実世界のトレーニングデータを収集するスケーラブルな手法を提案する。
本システムでは,カメラの動きを効果的に学習できることが示される。
論文 参考訳(メタデータ) (2024-12-12T18:59:54Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - AcinoSet: A 3D Pose Estimation Dataset and Baseline Models for Cheetahs
in the Wild [51.35013619649463]
我々はAcinoSetと呼ばれる野生のフリーランニングチーターの広範なデータセットを提示する。
データセットには、119,490フレームのマルチビュー同期高速ビデオ映像、カメラキャリブレーションファイル、7,588フレームが含まれている。
また、結果の3D軌道、人間チェックされた3D地上真実、およびデータを検査するインタラクティブツールも提供される。
論文 参考訳(メタデータ) (2021-03-24T15:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。