論文の概要: COMPOSE: Hypergraph Cover Optimization for Multi-view 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2601.09698v1
- Date: Wed, 14 Jan 2026 18:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.509437
- Title: COMPOSE: Hypergraph Cover Optimization for Multi-view 3D Human Pose Estimation
- Title(参考訳): COMPOSE: マルチビュー3次元人文推定のためのハイパーグラフ被覆最適化
- Authors: Tony Danjun Wang, Tolga Birdal, Nassir Navab, Lennart Bastian,
- Abstract要約: スパース多視点からの3次元ポーズ推定は、行動認識、スポーツ分析、人間とロボットの相互作用にとって重要な課題である。
ハイパーグラフ問題として多視点ポーズ対応マッチングを定式化する新しいフレームワークComposEを提案する。
COMPOSEは,従来の最適化手法よりも平均23%,自己教師付きエンドツーエンド学習手法より最大11%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 58.47973015036709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D pose estimation from sparse multi-views is a critical task for numerous applications, including action recognition, sports analysis, and human-robot interaction. Optimization-based methods typically follow a two-stage pipeline, first detecting 2D keypoints in each view and then associating these detections across views to triangulate the 3D pose. Existing methods rely on mere pairwise associations to model this correspondence problem, treating global consistency between views (i.e., cycle consistency) as a soft constraint. Yet, reconciling these constraints for multiple views becomes brittle when spurious associations propagate errors. We thus propose COMPOSE, a novel framework that formulates multi-view pose correspondence matching as a hypergraph partitioning problem rather than through pairwise association. While the complexity of the resulting integer linear program grows exponentially in theory, we introduce an efficient geometric pruning strategy to substantially reduce the search space. COMPOSE achieves improvements of up to 23% in average precision over previous optimization-based methods and up to 11% over self-supervised end-to-end learned methods, offering a promising solution to a widely studied problem.
- Abstract(参考訳): スパースマルチビューからの3Dポーズ推定は、アクション認識、スポーツ分析、人間とロボットの相互作用を含む多くのアプリケーションにとって重要なタスクである。
最適化ベースの手法は通常、2段階のパイプラインに従っており、まず各ビューで2Dキーポイントを検出し、それからビュー全体でこれらの検出を関連付けて3Dポーズを三角測量する。
既存の手法は、この対応問題をモデル化するために単なるペアワイズ関連に頼っており、ビュー間のグローバルな一貫性(すなわち、サイクル一貫性)をソフト制約として扱う。
しかし、これらの制約を複数のビューに整合させることは、急激な関連がエラーを伝播させると不安定になる。
そこで我々は,多視点ポーズ対応マッチングを,ペア関係ではなくハイパーグラフ分割問題として定式化する新しいフレームワークであるComposEを提案する。
結果の整数線形プログラムの複雑さは理論上指数関数的に増大するが,探索空間を大幅に削減する効率的な幾何学的プルーニング戦略を導入する。
COMPOSEは,従来の最適化手法よりも平均23%の精度向上を実現し,自己教師付きエンドツーエンド学習手法よりも最大11%の精度向上を実現し,広く研究されている問題に対する有望な解決策を提供する。
関連論文リスト
- H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction [39.22287224290769]
H3Rは、潜在融合と注目に基づく機能集約を統合するハイブリッドフレームワークである。
両パラダイムを統合することで,既存手法よりも2$times$高速に収束しながら,一般化が促進される。
本手法は,ロバストなクロスデータセットの一般化を実証しながら,可変数および高分解能な入力ビューをサポートする。
論文 参考訳(メタデータ) (2025-08-05T05:56:30Z) - A Framework for Reducing the Complexity of Geometric Vision Problems and its Application to Two-View Triangulation with Approximation Bounds [14.419727000332717]
三角測量は、複数の画像にわたるノイズの多い2次元投影から3次元点を推定するタスクである。
本稿では,再投射誤差を最小限に抑えるために使用されるコスト関数の再重み付けにより,幾何学的視覚問題の計算複雑性を低減するための新しいフレームワークを提案する。
この研究は2次元三角測量に焦点を当てているが、このフレームワークは他の幾何学的視覚問題に一般化している。
論文 参考訳(メタデータ) (2025-03-11T08:00:51Z) - Occ$^2$Net: Robust Image Matching Based on 3D Occupancy Estimation for
Occluded Regions [14.217367037250296]
Occ$2$Netは、3D占有率を用いて閉塞関係をモデル化し、閉塞領域の一致点を推測する画像マッチング手法である。
本手法は実世界とシミュレーションデータセットの両方で評価し,いくつかの指標における最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-14T13:09:41Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z) - Isometric Multi-Shape Matching [50.86135294068138]
形状間の対応を見つけることは、コンピュータビジョンとグラフィックスの基本的な問題である。
アイソメトリーは形状対応問題においてしばしば研究されるが、マルチマッチング環境では明確には考慮されていない。
定式化を解くのに適した最適化アルゴリズムを提案し,コンバージェンスと複雑性解析を提供する。
論文 参考訳(メタデータ) (2020-12-04T15:58:34Z) - Solving the Blind Perspective-n-Point Problem End-To-End With Robust
Differentiable Geometric Optimization [44.85008070868851]
Blind Perspective-n-Pointは、シーンに対するカメラの位置を推定する問題である。
本稿では,視覚幾何学的問題を効果的に解くための,最初の完全エンドツーエンドのトレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2020-07-29T06:35:45Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z) - PnP-Net: A hybrid Perspective-n-Point Network [2.66512000865131]
本稿では、ディープラーニングとモデルベースアルゴリズムを組み合わせたハイブリッドアプローチを用いて、ロバストなパースペクティブ・n・ポイント問題を考察する。
計算量の少ない合成パラメータと実世界のデータの両方を実証する。
論文 参考訳(メタデータ) (2020-03-10T10:43:14Z) - Learning multiview 3D point cloud registration [74.39499501822682]
本稿では,エンドツーエンドで学習可能なマルチビュー3Dポイントクラウド登録アルゴリズムを提案する。
このアプローチは、エンドツーエンドのトレーニングが可能で、計算コストが小さく、最先端のマージンよりも優れています。
論文 参考訳(メタデータ) (2020-01-15T03:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。