論文の概要: Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation
- arxiv url: http://arxiv.org/abs/2004.02186v2
- Date: Sat, 20 Jun 2020 08:35:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 13:01:24.683334
- Title: Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation
- Title(参考訳): カメラアンタングル表現による軽量多視点3次元画像推定
- Authors: Edoardo Remelli, Shangchen Han, Sina Honari, Pascal Fua, Robert Wang
- Abstract要約: 空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
- 参考スコア(独自算出の注目度): 57.11299763566534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a lightweight solution to recover 3D pose from multi-view images
captured with spatially calibrated cameras. Building upon recent advances in
interpretable representation learning, we exploit 3D geometry to fuse input
images into a unified latent representation of pose, which is disentangled from
camera view-points. This allows us to reason effectively about 3D pose across
different views without using compute-intensive volumetric grids. Our
architecture then conditions the learned representation on camera projection
operators to produce accurate per-view 2d detections, that can be simply lifted
to 3D via a differentiable Direct Linear Transform (DLT) layer. In order to do
it efficiently, we propose a novel implementation of DLT that is orders of
magnitude faster on GPU architectures than standard SVD-based triangulation
methods. We evaluate our approach on two large-scale human pose datasets (H36M
and Total Capture): our method outperforms or performs comparably to the
state-of-the-art volumetric methods, while, unlike them, yielding real-time
performance.
- Abstract(参考訳): 空間校正カメラで撮影した多視点画像から3Dポーズを復元する軽量なソリューションを提案する。
近年の解釈可能な表現学習の進歩を生かして、3次元幾何を利用して入力画像からポーズの潜在表現を融合し、カメラ視点から切り離される。
これにより、計算集約的なボリュームグリッドを使わずに、さまざまなビューで3Dポーズを効果的に推論できる。
我々のアーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー毎の2d検出を正確に生成し、DLT(Direct Linear Transform)層を介して簡単に3Dに持ち上げることができる。
そこで本研究では,GPUアーキテクチャにおいて,標準的なSVDベースの三角法よりも桁違いに高速なDLTの実装を提案する。
我々は,2つの大規模人間のポーズデータセット(H36MとTotal Capture)に対するアプローチを評価した。
関連論文リスト
- Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - MM3DGS SLAM: Multi-modal 3D Gaussian Splatting for SLAM Using Vision, Depth, and Inertial Measurements [59.70107451308687]
カメラ画像と慣性測定による地図表現に3Dガウスアンを用いることで、精度の高いSLAMが実現できることを示す。
我々の手法であるMM3DGSは、より高速なスケール認識と軌道追跡の改善により、事前レンダリングの限界に対処する。
また,カメラと慣性測定ユニットを備えた移動ロボットから収集したマルチモーダルデータセットUT-MMもリリースした。
論文 参考訳(メタデータ) (2024-04-01T04:57:41Z) - DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Improved Modeling of 3D Shapes with Multi-view Depth Maps [48.8309897766904]
CNNを用いて3次元形状をモデル化するための汎用フレームワークを提案する。
オブジェクトの1つの深度画像だけで、3Dオブジェクトの高密度な多視点深度マップ表現を出力できる。
論文 参考訳(メタデータ) (2020-09-07T17:58:27Z) - Light3DPose: Real-time Multi-Person 3D PoseEstimation from Multiple
Views [5.510992382274774]
いくつかのキャリブレーションされたカメラビューから複数の人物の3次元ポーズ推定を行う手法を提案する。
我々のアーキテクチャは、2次元ポーズ推定器のバックボーンから特徴マップを3次元シーンの包括的表現に集約する。
提案手法は本質的に効率的であり, 純粋なボトムアップ手法として, 現場の人数から計算的に独立している。
論文 参考訳(メタデータ) (2020-04-06T14:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。