論文の概要: From Camera to World: A Plug-and-Play Module for Human Mesh Transformation
- arxiv url: http://arxiv.org/abs/2512.15212v1
- Date: Wed, 17 Dec 2025 09:05:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.911136
- Title: From Camera to World: A Plug-and-Play Module for Human Mesh Transformation
- Title(参考訳): カメラから世界へ:人間のメッシュトランスフォーメーションのためのプラグアンドプレイモジュール
- Authors: Changhai Ma, Ziyu Wu, Yunkang Zhang, Qijun Ying, Boyan Liu, Xiaohui Cai,
- Abstract要約: 我々は,人間のメッシュをカメラ座標から世界座標に変換するプラグイン・アンド・プレイモジュールであるMesh-Plugを提案する。
重要なイノベーションは、カメラの回転パラメータを推定するために初期メッシュからレンダリングされたRGBイメージと深度マップの両方を活用する、人間中心のアプローチにある。
本フレームワークは,SPEC-SYNとSPEC-MTPのベンチマークデータセット上で,最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 1.5453237467077674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing accurate 3D human meshes in the world coordinate system from in-the-wild images remains challenging due to the lack of camera rotation information. While existing methods achieve promising results in the camera coordinate system by assuming zero camera rotation, this simplification leads to significant errors when transforming the reconstructed mesh to the world coordinate system. To address this challenge, we propose Mesh-Plug, a plug-and-play module that accurately transforms human meshes from camera coordinates to world coordinates. Our key innovation lies in a human-centered approach that leverages both RGB images and depth maps rendered from the initial mesh to estimate camera rotation parameters, eliminating the dependency on environmental cues. Specifically, we first train a camera rotation prediction module that focuses on the human body's spatial configuration to estimate camera pitch angle. Then, by integrating the predicted camera parameters with the initial mesh, we design a mesh adjustment module that simultaneously refines the root joint orientation and body pose. Extensive experiments demonstrate that our framework outperforms state-of-the-art methods on the benchmark datasets SPEC-SYN and SPEC-MTP.
- Abstract(参考訳): 世界座標系における正確な3次元メッシュの再構築は、カメラの回転情報が欠如しているため、いまだに困難である。
既存の方法では、カメラの回転をゼロと仮定して、カメラ座標系において有望な結果が得られるが、この単純化により、再構成メッシュを世界座標系に変換する際には、かなりの誤差が生じる。
この課題に対処するために,人間のメッシュをカメラ座標からワールド座標に正確に変換する,プラグアンドプレイモジュールであるMesh-Plugを提案する。
私たちの重要なイノベーションは、RGBイメージと初期メッシュからレンダリングされた深度マップの両方を活用して、カメラの回転パラメータを推定する、人間中心のアプローチにあります。
具体的には、まず、人間の身体の空間構成に焦点を当てたカメラ回転予測モジュールを訓練し、カメラピッチ角を推定する。
そして,予測カメラパラメータを初期メッシュに統合することにより,ルート関節方向とボディポーズを同時に改善するメッシュ調整モジュールを設計する。
ベンチマークデータセットSPEC-SYNとSPEC-MTPでは,我々のフレームワークが最先端の手法より優れていることを示す。
関連論文リスト
- Unified Camera Positional Encoding for Controlled Video Generation [48.5789182990001]
トランスフォーマーは、3D知覚、ビデオ生成、自律運転のための世界モデル、そしてAIを具体化するための普遍的なバックボーンとして登場した。
本稿では、6-DoFポーズ、内在性、レンズ歪みを含む完全なカメラ情報を統一する幾何学一貫性表現であるRelative Rayを紹介する。
システム的なトレーニングと評価を容易にするため,広い範囲のカメラモーションとレンズタイプをカバーする大規模なビデオデータセットを構築した。
論文 参考訳(メタデータ) (2025-12-08T07:34:01Z) - WorldMirror: Universal 3D World Reconstruction with Any-Prior Prompting [51.69408870574092]
汎用的な3次元幾何予測タスクのためのオールインワンフィードフォワードモデルであるWorldMirrorを提案する。
我々のフレームワークは、カメラのポーズ、内在性、深度マップなど、様々な幾何学的先入観を柔軟に統合する。
WorldMirrorは、カメラ、ポイントマップ、深さ、表面正規推定から新しいビュー合成に至るまで、さまざまなベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-12T17:59:09Z) - 3DPCNet: Pose Canonicalization for Robust Viewpoint-Invariant 3D Kinematic Analysis from Monocular RGB cameras [7.906702226082628]
3DPCNetは3Dジョイント座標で直接動作するコンパクトな推定器に依存しないモジュールである。
本手法は,地中構造IMUセンサデータと強い視覚的対応を示すビデオから加速度信号を生成する。
論文 参考訳(メタデータ) (2025-09-27T18:55:21Z) - MGSfM: Multi-Camera Geometry Driven Global Structure-from-Motion [13.24058110580706]
マルチカメラシステムのための新しいグローバルモーション平均化フレームワークを提案する。
我々のシステムは、効率を大幅に改善しながら、漸進的なSfM精度に適合または超える。
論文 参考訳(メタデータ) (2025-07-04T05:25:00Z) - UniK3D: Universal Camera Monocular 3D Estimation [62.06785782635153]
カメラをモデル化可能なモノクル3D推定法として,UniK3Dを提案する。
本手法では, 球面3次元表現を導入し, カメラとシーンの形状をよりよく切り離すことができる。
13の多様なデータセットに対する包括的なゼロショット評価は、3D、ディープ、カメラメトリクスにわたるUniK3Dの最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-20T17:49:23Z) - FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [69.63414788486578]
FreeSplatterはスケーラブルなフィードフォワードフレームワークで、キャリブレーションされていないスパースビュー画像から高品質な3Dガウシアンを生成する。
当社のアプローチでは,自己注意ブロックが情報交換を容易にする合理化トランスフォーマーアーキテクチャを採用している。
包括的データセットに基づいて,オブジェクト中心とシーンレベルの再構築のための2つの特殊な変種を開発する。
論文 参考訳(メタデータ) (2024-12-12T18:52:53Z) - ESVO2: Direct Visual-Inertial Odometry with Stereo Event Cameras [41.992980062962495]
イベントベースビジュアル・オドメトリーは、追跡とサブプロブレムのマッピング(典型的には並列)を解決することを目的としている
直接パイプライン上に,イベントベースのステレオビジュアル慣性オドメトリーシステムを構築した。
結果として得られるシステムは、現代の高解像度のイベントカメラでうまくスケールする。
論文 参考訳(メタデータ) (2024-10-12T05:35:27Z) - CAPE: Camera View Position Embedding for Multi-View 3D Object Detection [100.02565745233247]
現在のクエリベースの手法は、画像と3次元空間の幾何学的対応を学習するために、グローバルな3D位置埋め込みに依存している。
本稿では,CAPE と呼ばれる,CAmera view position Embedding に基づく新しい手法を提案する。
CAPEはnuScenesデータセット上の全てのLiDARフリーメソッドの中で最先端のパフォーマンス(61.0% NDSと52.5% mAP)を達成する。
論文 参考訳(メタデータ) (2023-03-17T18:59:54Z) - Category-Level Metric Scale Object Shape and Pose Estimation [73.92460712829188]
本稿では,測度スケールの形状と1枚のRGB画像からのポーズを共同で推定するフレームワークを提案する。
カテゴリーレベルのオブジェクトのポーズと形状を評価するために,合成と実世界の両方のデータセット上で本手法の有効性を検証した。
論文 参考訳(メタデータ) (2021-09-01T12:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。