論文の概要: WATCH: World-aware Allied Trajectory and pose reconstruction for Camera and Human
- arxiv url: http://arxiv.org/abs/2509.04600v1
- Date: Thu, 04 Sep 2025 18:29:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.384059
- Title: WATCH: World-aware Allied Trajectory and pose reconstruction for Camera and Human
- Title(参考訳): WATCH:世界認知の連合軍軌道とカメラと人間のポーズ復元
- Authors: Qijun Ying, Zhongyuan Hu, Rui Zhang, Ronghui Li, Yu Lu, Zijiao Zeng,
- Abstract要約: 原文(投稿日:2019/09/10)へのリンク 世界の人間の動きを、Wildのモノキュラービデオから再現することは、VR、グラフィックス、ロボティクスのアプリケーションでますます求められている。
We present WATCH (World-Aware Allied Trajectory and pose reconstruction for Camera and Human)は、両課題に対処する統一的な枠組みである。
本研究は、カメラと人間の動作関係を共同でモデル化することの有効性を実証し、グローバルな人間の動作再構成におけるカメラ翻訳統合の長年の課題に対処するための新たな洞察を提供する。
- 参考スコア(独自算出の注目度): 14.608329202942057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Global human motion reconstruction from in-the-wild monocular videos is increasingly demanded across VR, graphics, and robotics applications, yet requires accurate mapping of human poses from camera to world coordinates-a task challenged by depth ambiguity, motion ambiguity, and the entanglement between camera and human movements. While human-motion-centric approaches excel in preserving motion details and physical plausibility, they suffer from two critical limitations: insufficient exploitation of camera orientation information and ineffective integration of camera translation cues. We present WATCH (World-aware Allied Trajectory and pose reconstruction for Camera and Human), a unified framework addressing both challenges. Our approach introduces an analytical heading angle decomposition technique that offers superior efficiency and extensibility compared to existing geometric methods. Additionally, we design a camera trajectory integration mechanism inspired by world models, providing an effective pathway for leveraging camera translation information beyond naive hard-decoding approaches. Through experiments on in-the-wild benchmarks, WATCH achieves state-of-the-art performance in end-to-end trajectory reconstruction. Our work demonstrates the effectiveness of jointly modeling camera-human motion relationships and offers new insights for addressing the long-standing challenge of camera translation integration in global human motion reconstruction. The code will be available publicly.
- Abstract(参考訳): しかし、カメラから世界座標への人間のポーズの正確なマッピングは必要であり、奥行きのあいまいさ、動きのあいまいさ、カメラと人間の動きの絡み合いによって挑戦される。
人間の動き中心のアプローチは、動きの詳細と身体的可視性を維持するのに優れているが、カメラ指向情報の不十分な活用と、カメラ翻訳の非効率な統合という2つの重要な制限に悩まされている。
We present WATCH (World-Aware Allied Trajectory and pose reconstruction for Camera and Human)は、両課題に対処する統一的な枠組みである。
提案手法は,既存の幾何学的手法と比較して,効率と拡張性に優れた解析的方向角分解手法を提案する。
さらに,世界モデルにインスパイアされたカメラ軌道統合機構を設計し,難解なハードデコードアプローチを超えて,カメラ翻訳情報を活用する効果的な経路を提供する。
WATCHは、Wildベンチマークの実験を通じて、エンドツーエンドの軌道再構成において最先端のパフォーマンスを達成する。
本研究は、カメラと人間の動作関係を共同でモデル化することの有効性を実証し、グローバルな人間の動作再構成におけるカメラ翻訳統合の長年の課題に対処するための新たな洞察を提供する。
コードは公開されます。
関連論文リスト
- TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation [7.900728371180723]
TokenMotionは、カメラモーションのきめ細かい制御を可能にする、最初のDiTベースのビデオ拡散フレームワークである。
本稿では,人間を意識した動的マスクをブリッジした分離・融合戦略を用いた統一モデリングフレームワークを提案する。
私たちの研究は、コントロール可能なビデオ生成の大幅な進歩を表しており、特にクリエイティブなプロダクションアプリケーションに関係しています。
論文 参考訳(メタデータ) (2025-04-11T00:41:25Z) - HumanMM: Global Human Motion Recovery from Multi-shot Videos [24.273414172013933]
本稿では,複数のショット遷移を伴って,世界における長時間の人間の動きを再現する新しいフレームワークを提案する。
このような長時間の動作は、モーション生成やモーション理解といった応用に非常に有用である。
論文 参考訳(メタデータ) (2025-03-10T17:57:03Z) - HaWoR: World-Space Hand Motion Reconstruction from Egocentric Videos [26.766489527823662]
HaWoRは、エゴセントリックなビデオから世界座標のハンドモーション再構成のための高忠実度手法である。
正確なカメラ軌道推定を実現するために,適応型エゴセントリックSLAMフレームワークを提案する。
本研究では,HawoRが手動再建と世界フレームカメラの軌跡推定の両面において,最先端の性能を実現することを実証する。
論文 参考訳(メタデータ) (2025-01-06T12:29:33Z) - Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera [49.82535393220003]
Dyn-HaMRは、野生のダイナミックカメラで撮影されたモノクロビデオから4Dグローバルハンドモーションを再構築する最初のアプローチである。
提案手法は,4次元メッシュ・リカバリにおいて最先端の手法を著しく上回ることを示す。
これにより、動くカメラでモノクロビデオから手の動きを復元するための新しいベンチマークが確立される。
論文 参考訳(メタデータ) (2024-12-17T12:43:10Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - WHAC: World-grounded Humans and Cameras [37.877565981937586]
我々は,表現的パラメトリック人間モデル(SMPL-X)と対応するカメラのポーズを共同で再現することを目指している。
WHACと呼ばれる新しいフレームワークを導入し、世界規模で表現された人間のポーズと形状の推定を容易にする。
我々は、正確に注釈付けされた人間とカメラを含む新しい合成データセットWHAC-A-Moleを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:58:02Z) - PACE: Human and Camera Motion Estimation from in-the-wild Videos [113.76041632912577]
本研究では,移動カメラのグローバルシーンにおける人間の動きを推定する手法を提案する。
これは、ビデオ中の人間とカメラの動きが混ざり合っているため、非常に難しい作業である。
本研究では,人体とカメラの動作を前景の人体と背景の両方の特徴を用いてアンハングリングする共同最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T19:04:14Z) - Decoupling Human and Camera Motion from Videos in the Wild [67.39432972193929]
本研究では,野生の映像から地球規模の人間の軌道を再構築する手法を提案する。
カメラと人間の動きを分離することで、人間を同じ世界座標系に配置することができる。
論文 参考訳(メタデータ) (2023-02-24T18:59:15Z) - GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic Cameras [99.07219478953982]
ダイナミックカメラで記録したモノクロビデオから3次元グローバルなヒューマンメッシュリカバリのためのアプローチを提案する。
われわれはまず,視覚的動作に基づいて隠蔽されたヒトの身体運動を自己回帰的に埋め込む,深部再生運動充填装置を提案する。
従来の研究とは対照的に,我々の手法はダイナミックカメラを用いても,一貫したグローバル座標で人間のメッシュを再構築する。
論文 参考訳(メタデータ) (2021-12-02T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。