論文の概要: PosePilot: Steering Camera Pose for Generative World Models with Self-supervised Depth
- arxiv url: http://arxiv.org/abs/2505.01729v1
- Date: Sat, 03 May 2025 07:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.242819
- Title: PosePilot: Steering Camera Pose for Generative World Models with Self-supervised Depth
- Title(参考訳): PosePilot: 自己監督型世界モデルのためのステアリングカメラ
- Authors: Bu Jin, Weize Li, Baihan Yang, Zhenxin Zhu, Junpeng Jiang, Huan-ang Gao, Haiyang Sun, Kun Zhan, Hengtong Hu, Xueyang Zhang, Peng Jia, Hao Zhao,
- Abstract要約: 生成的世界モデルにおけるカメラポーズ制御性を著しく向上する軽量かつ強力なフレームワークであるPosePilotを紹介する。
具体的には、自己教師付き深度と読み出しのポーズを組み、ビデオシーケンスから直接深度と相対カメラの動きを推測する。
自律運転と一般ドメインのビデオデータセットの実験は、PosePilotが構造的理解とモーション推論を大幅に強化することを示した。
- 参考スコア(独自算出の注目度): 9.737257599532956
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in autonomous driving (AD) systems have highlighted the potential of world models in achieving robust and generalizable performance across both ordinary and challenging driving conditions. However, a key challenge remains: precise and flexible camera pose control, which is crucial for accurate viewpoint transformation and realistic simulation of scene dynamics. In this paper, we introduce PosePilot, a lightweight yet powerful framework that significantly enhances camera pose controllability in generative world models. Drawing inspiration from self-supervised depth estimation, PosePilot leverages structure-from-motion principles to establish a tight coupling between camera pose and video generation. Specifically, we incorporate self-supervised depth and pose readouts, allowing the model to infer depth and relative camera motion directly from video sequences. These outputs drive pose-aware frame warping, guided by a photometric warping loss that enforces geometric consistency across synthesized frames. To further refine camera pose estimation, we introduce a reverse warping step and a pose regression loss, improving viewpoint precision and adaptability. Extensive experiments on autonomous driving and general-domain video datasets demonstrate that PosePilot significantly enhances structural understanding and motion reasoning in both diffusion-based and auto-regressive world models. By steering camera pose with self-supervised depth, PosePilot sets a new benchmark for pose controllability, enabling physically consistent, reliable viewpoint synthesis in generative world models.
- Abstract(参考訳): 自律運転(AD)システムの最近の進歩は、通常の運転条件と困難な運転条件の両方において、堅牢で一般化可能な性能を達成する世界のモデルの可能性を強調している。
しかし、重要な課題は、正確にフレキシブルなカメラポーズ制御であり、シーンダイナミクスの正確な視点変換と現実的なシミュレーションに不可欠である。
本稿では,PosePilotについて紹介する。PosePilotは,生成的世界モデルにおけるカメラポーズ制御性を著しく向上する軽量かつ強力なフレームワークである。
PosePilotは、自己監督による深度推定からインスピレーションを得て、カメラのポーズとビデオ生成の密結合を確立するために、構造から移動の原則を活用している。
具体的には、自己教師付き深度と読み出しのポーズを組み、ビデオシーケンスから直接深度と相対カメラの動きを推測する。
これらの出力は、合成されたフレーム間の幾何的一貫性を強制するフォトメトリック・ワープ損失によって導かれる、ポーズ対応のフレームワープを駆動する。
カメラのポーズ推定をさらに洗練するために、逆ワープステップとポーズ回帰損失を導入し、視点精度と適応性を改善した。
自律運転と一般ドメインのビデオデータセットに関する大規模な実験は、PosePilotが拡散ベースと自己回帰型の両方の世界モデルにおける構造的理解と運動推論を著しく向上させることを示した。
PosePilotは、カメラのポーズを自己監督深度で操ることで、ポーズ制御性のための新しいベンチマークを設定し、生成的世界モデルにおける物理的に一貫性があり、信頼性の高い視点合成を可能にする。
関連論文リスト
- Dynamic Camera Poses and Where to Find Them [36.249380390918816]
我々はDynPose-100Kを紹介した。DynPose-100Kはカメラポーズを付加した動的インターネットビデオの大規模データセットである。
ポーズ推定には,最新のポイントトラッキング,動的マスキング,構造からの移動といった手法を組み合わせる。
分析と実験により,DynPose-100Kは大規模かつ多様であることがわかった。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Back on Track: Bundle Adjustment for Dynamic Scene Reconstruction [78.27956235915622]
従来のSLAMシステムは、カジュアルなビデオでよく見られる非常にダイナミックなシーンと格闘する。
この研究は3Dポイントトラッカーを利用して、カメラによる動的物体の動きからカメラによる動きを分離する。
私たちのフレームワークは、従来のSLAM -- バンドル調整 -- の中核を、堅牢な学習ベースの3Dトラッカーフロントエンドと組み合わせています。
論文 参考訳(メタデータ) (2025-04-20T07:29:42Z) - FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.33896173943054]
ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。
既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。
本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文 参考訳(メタデータ) (2025-03-29T14:26:06Z) - CamI2V: Camera-Controlled Image-to-Video Diffusion Model [11.762824216082508]
統合カメラポーズは、ビデオ拡散モデルにおけるユーザフレンドリーで物理インフォームド条件であり、正確なカメラ制御を可能にする。
重要な課題の1つは、幾何学的整合性とカメラ制御性を高めるために、ノイズの多いクロスフレーム相互作用を効果的にモデル化することである。
我々は,条件の品質と不確実性を低減し,ノイズのあるクロスフレーム特徴をノイズのある状態の形で解釈する能力とを革新的に関連付ける。
論文 参考訳(メタデータ) (2024-10-21T12:36:27Z) - VICAN: Very Efficient Calibration Algorithm for Large Camera Networks [49.17165360280794]
ポースグラフ最適化手法を拡張する新しい手法を提案する。
我々は、カメラを含む二部グラフ、オブジェクトの動的進化、各ステップにおけるカメラオブジェクト間の相対変換について考察する。
我々のフレームワークは従来のPGOソルバとの互換性を維持しているが、その有効性はカスタマイズされた最適化方式の恩恵を受けている。
論文 参考訳(メタデータ) (2024-03-25T17:47:03Z) - Robust Self-Supervised Extrinsic Self-Calibration [25.727912226753247]
マルチカメラによるビデオからの単眼深度推定は、環境を判断する上で有望な方法である。
本稿では,自己教師型単眼深度と自我運動学習の原理を基礎として,外因性キャリブレーションの新たな手法を提案する。
論文 参考訳(メタデータ) (2023-08-04T06:20:20Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic Cameras [99.07219478953982]
ダイナミックカメラで記録したモノクロビデオから3次元グローバルなヒューマンメッシュリカバリのためのアプローチを提案する。
われわれはまず,視覚的動作に基づいて隠蔽されたヒトの身体運動を自己回帰的に埋め込む,深部再生運動充填装置を提案する。
従来の研究とは対照的に,我々の手法はダイナミックカメラを用いても,一貫したグローバル座標で人間のメッシュを再構築する。
論文 参考訳(メタデータ) (2021-12-02T18:59:54Z) - TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文 参考訳(メタデータ) (2021-05-28T19:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。