Fugu-MT 論文翻訳(概要): Multiple View Geometry Transformers for 3D Human Pose Estimation

論文の概要: Multiple View Geometry Transformers for 3D Human Pose Estimation

arxiv url: http://arxiv.org/abs/2311.10983v1
Date: Sat, 18 Nov 2023 06:32:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-22 13:08:38.446999
Title: Multiple View Geometry Transformers for 3D Human Pose Estimation
Title（参考訳）: 3次元ポーズ推定のための多視点幾何トランスフォーマー
Authors: Ziwei Liao, Jialiang Zhu, Chunyu Wang, Han Hu, Steven L. Waslander
Abstract要約: 多視点人間のポーズ推定におけるトランスフォーマーの3次元推論能力の向上を目指す。本稿では,一連の幾何学的および外観的モジュールを反復的に構成した新しいハイブリッドモデルMVGFormerを提案する。
参考スコア（独自算出の注目度）: 35.26756920323391
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we aim to improve the 3D reasoning ability of Transformers in multi-view 3D human pose estimation. Recent works have focused on end-to-end learning-based transformer designs, which struggle to resolve geometric information accurately, particularly during occlusion. Instead, we propose a novel hybrid model, MVGFormer, which has a series of geometric and appearance modules organized in an iterative manner. The geometry modules are learning-free and handle all viewpoint-dependent 3D tasks geometrically which notably improves the model's generalization ability. The appearance modules are learnable and are dedicated to estimating 2D poses from image signals end-to-end which enables them to achieve accurate estimates even when occlusion occurs, leading to a model that is both accurate and generalizable to new cameras and geometries. We evaluate our approach for both in-domain and out-of-domain settings, where our model consistently outperforms state-of-the-art methods, and especially does so by a significant margin in the out-of-domain setting. We will release the code and models: https://github.com/XunshanMan/MVGFormer.
Abstract（参考訳）: 本研究では,多視点人間のポーズ推定におけるトランスフォーマーの3次元推論能力の向上を目指す。最近の研究は、特に閉塞時に幾何学的情報を正確に解くのに苦労するエンドツーエンドの学習ベーストランスフォーマーの設計に焦点を当てている。そこで我々は,一連の幾何学的および外観的モジュールを反復的に構成した新しいハイブリッドモデルMVGFormerを提案する。幾何学モジュールは学習自由であり、全ての視点依存の3Dタスクを幾何学的に扱う。外観モジュールは学習可能であり、画像信号からエンドツーエンドまでの2Dポーズを推定することに特化しており、オクルージョンが発生しても正確な推定が可能であり、新しいカメラやジオメトリに正確かつ一般化可能なモデルに繋がる。私たちは、ドメイン内設定とドメイン外設定の両方に対して、我々のアプローチを評価します。コードとモデルはhttps://github.com/xunshanman/mvgformerでリリースします。

関連論文リスト

FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [93.6881532277553]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文参考訳（メタデータ） (2025-02-17T18:54:05Z)
Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文参考訳（メタデータ） (2024-07-05T09:43:05Z)
UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文参考訳（メタデータ） (2024-04-23T00:18:00Z)
SkelFormer: Markerless 3D Pose and Shape Estimation using Skeletal Transformers [57.46911575980854]
マルチビュー人間のポーズと形状推定のための新しいマーカーレスモーションキャプチャパイプラインであるSkelFormerを紹介する。提案手法は,まず市販の2次元キーポイント推定器を用いて,大規模インザミルドデータに基づいて事前トレーニングを行い,3次元関節位置を求める。次に、重雑音観測から、関節の位置をポーズと形状の表現にマッピングする回帰に基づく逆運動性骨格変換器を設計する。
論文参考訳（メタデータ） (2024-04-19T04:51:18Z)
FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文参考訳（メタデータ） (2023-08-10T17:55:02Z)
Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文参考訳（メタデータ） (2022-04-21T03:42:31Z)
Disentangled3D: Learning a 3D Generative Model with Disentangled Geometry and Appearance from Monocular Images [94.49117671450531]
最先端の3D生成モデルは、合成に神経的な3Dボリューム表現を使用するGANである。本稿では,単分子観察だけで物体の絡み合ったモデルを学ぶことができる3D GANを設計する。
論文参考訳（メタデータ） (2022-03-29T22:03:18Z)
Geometry-Free View Synthesis: Transformers and no 3D Priors [16.86600007830682]
トランスフォーマーモデルでは,手作業による3次元バイアスを伴わずに全く新しいビューを合成できることを示す。 i)ソースビューとターゲットビューの長距離3D対応を暗黙的に学習するグローバルアテンションメカニズムによって実現される。
論文参考訳（メタデータ） (2021-04-15T17:58:05Z)
3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文参考訳（メタデータ） (2021-03-18T18:14:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。