論文の概要: Unconstrained Multi-view Human Pose Estimation with Algebraic Priors
- arxiv url: http://arxiv.org/abs/2604.24312v1
- Date: Mon, 27 Apr 2026 11:01:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.913333
- Title: Unconstrained Multi-view Human Pose Estimation with Algebraic Priors
- Title(参考訳): 代数的先行性を考慮した制約のない多視点ヒューマンポース推定
- Authors: Xiaolin Qin, Qianlei Wang, Jiacen Liu, Chaoning Zhang, Fei Zhu, Zhang Yi,
- Abstract要約: 本研究では,深層ニューラルネットワーク,代数的先行性,時間的ダイナミクスを相乗化して非平衡ポーズ推定を行う非拘束フレームワークを提案する。
本フレームワークは,非校正型多視点人間のポーズ推定のための新しい最先端技術を確立する。
- 参考スコア(独自算出の注目度): 28.69737225698459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recovering 3D human pose from multi-view imagery typically relies on precise camera calibration, which is often unavailable in real-world scenarios, thereby severely limiting the applicability of existing methods. To overcome this challenge, we propose an unconstrained framework that synergizes deep neural networks, algebraic priors, and temporal dynamics for uncalibrated multi-view human pose estimation. First, we introduce the Triangulation with Transformer Regressor (TTR), which reformulates classical triangulation into a data-driven token fusion process to bypass the dependency on explicit camera parameters. Second, to explicitly embed the inherent algebraic relations of the multi-view variety into the learning process, we propose the Gröbner basis Corrector (GC). This pioneering loss formulation enforces constraints derived from the multi-view variety to ensure the neural predictions strictly adhere to the laws of projective geometry. Finally, we devise the Temporal Equivariant Rectifier (TER), which exploits the equivariance property of human motion to impose temporal coherence and structural consistency, effectively mitigating scale ambiguity in uncalibrated settings. Extensive evaluations on standard benchmarks demonstrate that our framework establishes a new state-of-the-art for uncalibrated multi-view human pose estimation. Notably, our approach significantly closes the performance gap between calibration-free methods and fully calibrated oracles.
- Abstract(参考訳): 多視点画像から3Dの人間のポーズを復元することは、通常、実際のシナリオでは利用できない正確なカメラキャリブレーションに依存するため、既存の手法の適用性が著しく制限される。
この課題を克服するために、我々は、深いニューラルネットワーク、代数的先行性、時間的ダイナミクスを相乗化する制約のないフレームワークを提案する。
まず,TTR(Triangulation with Transformer Regressor)を導入し,従来の三角法をデータ駆動型トークン融合プロセスに再構成し,明示的なカメラパラメータへの依存を回避した。
次に、多視点多様体の固有代数的関係を学習過程に明示的に組み込むために、Gröbner basis Corrector (GC) を提案する。
この先駆的な損失の定式化は、多視点多様体に由来する制約を強制し、ニューラル予測が射影幾何学の法則に厳密に準拠することを保証する。
最後に, 時間的コヒーレンスと構造的整合性を付与するために, 人間の動作の同値性を利用した時間的等変整流器(TER)を考案し, 校正されていない環境におけるスケールのあいまいさを効果的に緩和する。
基準ベンチマークによる広範囲な評価は、我々のフレームワークが非校正型多視点人間のポーズ推定のための新しい最先端技術を確立していることを示している。
特に, キャリブレーションフリー法と完全キャリブレーションオークル間の性能差を著しく改善する。
関連論文リスト
- Sparse-View 3D Reconstruction: Recent Advances and Open Challenges [0.8583178253811411]
濃密な画像取得が不可能なアプリケーションには,スパースビュー3D再構成が不可欠である。
この調査は、ニューラル暗黙のモデルと明示的なポイントクラウドベースのアプローチの最新の進歩をレビューする。
我々は, 幾何正規化, 明示的な形状モデリング, 生成的推論がアーティファクトの緩和にどのように利用されているかを分析する。
論文 参考訳(メタデータ) (2025-07-22T09:57:28Z) - UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
見えないオブジェクトのポーズ推定方法はCADモデルや複数の参照ビューに依存することが多い。
参照取得を簡略化するために,未提示のRGB-D参照画像を用いて未確認オブジェクトのポーズを推定することを目的とする。
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - Convex Latent-Optimized Adversarial Regularizers for Imaging Inverse
Problems [8.33626757808923]
本稿では,新しいデータ駆動型パラダイムであるConvex Latent-d Adrial Regularizers (CLEAR)を紹介する。
CLEARは、ディープラーニング(DL)と変分正規化の融合を表す。
本手法は従来型のデータ駆動手法と従来型の正規化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-09-17T12:06:04Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。