論文の概要: RUMPL: Ray-Based Transformers for Universal Multi-View 2D to 3D Human Pose Lifting
- arxiv url: http://arxiv.org/abs/2512.15488v1
- Date: Wed, 17 Dec 2025 14:37:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.026617
- Title: RUMPL: Ray-Based Transformers for Universal Multi-View 2D to 3D Human Pose Lifting
- Title(参考訳): RUMPL: ユニバーサルマルチビュー2Dから3Dヒューマン・ポース・リフティングのための光ベースの変換器
- Authors: Seyed Abolfazl Ghasemzadeh, Alexandre Alahi, Christophe De Vleeschouwer,
- Abstract要約: 2D画像から3D人間のポーズを推定することは依然として難しい。
近年の手法では2次元ポーズ推定と2次元から3次元のポーズリフトを合成データで訓練した。
RUMPLは2次元キーポイントの3次元線による表現を導入するトランスフォーマーベースの3Dポーズリフト機である。
- 参考スコア(独自算出の注目度): 81.66201044236321
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Estimating 3D human poses from 2D images remains challenging due to occlusions and projective ambiguity. Multi-view learning-based approaches mitigate these issues but often fail to generalize to real-world scenarios, as large-scale multi-view datasets with 3D ground truth are scarce and captured under constrained conditions. To overcome this limitation, recent methods rely on 2D pose estimation combined with 2D-to-3D pose lifting trained on synthetic data. Building on our previous MPL framework, we propose RUMPL, a transformer-based 3D pose lifter that introduces a 3D ray-based representation of 2D keypoints. This formulation makes the model independent of camera calibration and the number of views, enabling universal deployment across arbitrary multi-view configurations without retraining or fine-tuning. A new View Fusion Transformer leverages learned fused-ray tokens to aggregate information along rays, further improving multi-view consistency. Extensive experiments demonstrate that RUMPL reduces MPJPE by up to 53% compared to triangulation and over 60% compared to transformer-based image-representation baselines. Results on new benchmarks, including in-the-wild multi-view and multi-person datasets, confirm its robustness and scalability. The framework's source code is available at https://github.com/aghasemzadeh/OpenRUMPL
- Abstract(参考訳): 2D画像から3D人間のポーズを推定することは、隠蔽と投影的あいまいさのために依然として困難である。
マルチビュー学習に基づくアプローチは、これらの問題を緩和するが、しばしば実世界のシナリオへの一般化に失敗する。
この制限を克服するために、最近の手法は合成データに基づいて訓練された2D-to-3Dポーズリフトと組み合わせた2Dポーズ推定に頼っている。
従来のMPLフレームワークをベースとして,2Dキーポイントの3D線による表現を導入したトランスフォーマーベースの3DポーズリフタであるRUMPLを提案する。
この定式化により、モデルはカメラキャリブレーションやビュー数とは無関係になり、任意のマルチビュー構成に対して、再トレーニングや微調整をすることなく、普遍的なデプロイが可能になる。
新しいView Fusion Transformerは、学習された融合されたトークンを利用して、光線に沿って情報を集約し、マルチビューの一貫性をさらに向上する。
広汎な実験により、RUMPLは三角形に比べてMPJPEを最大53%削減し、トランスフォーマーベースの画像表現ベースラインに比べて60%以上削減することが示された。
In-theld Multi-view や Multi-person データセットを含む新しいベンチマークの結果は、その堅牢性とスケーラビリティを確認している。
フレームワークのソースコードはhttps://github.com/aghasemzadeh/OpenRUMPLで入手できる。
関連論文リスト
- TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。
既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。
本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:28:06Z) - MPL: Lifting 3D Human Pose from Multi-view 2D Poses [75.26416079541723]
本稿では,大規模かつリッチなトレーニングデータセットが存在する2次元ポーズ推定と,トランスフォーマーネットワークを用いた2次元から3次元ポーズリフトを提案する。
実験の結果,MPJPEの誤差は2次元ポーズを三角測量した3次元ポーズと比較して最大45%減少することがわかった。
論文 参考訳(メタデータ) (2024-08-20T12:55:14Z) - Repeat and Concatenate: 2D to 3D Image Translation with 3D to 3D Generative Modeling [14.341099905684844]
本稿では,2次元X線と3次元CTライクな再構成が可能な2次元-3次元画像変換法について,簡単な手法で検討する。
我々は,潜伏空間内の複数の2次元ビューにまたがる情報を統合する既存のアプローチが,潜伏符号化中に貴重な信号情報を失うことを観察する。代わりに,2次元ビューを高チャネルの3次元ボリュームに繰り返して,簡単な3次元から3次元生成モデル問題として3次元再構成課題にアプローチする。
この方法では、再構成された3Dボリュームが、2D入力から貴重な情報を保持でき、Swin Uのチャネル状態間で渡される。
論文 参考訳(メタデータ) (2024-06-26T15:18:20Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - Shape-aware Multi-Person Pose Estimation from Multi-View Images [47.13919147134315]
提案した粗大なパイプラインは、まず複数のカメラビューからノイズの多い2次元の観測結果を3次元空間に集約する。
最終的なポーズ推定は、高信頼度多視点2次元観測と3次元関節候補をリンクする新しい最適化スキームから得られる。
論文 参考訳(メタデータ) (2021-10-05T20:04:21Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。