論文の概要: Multi-view object pose estimation from correspondence distributions and
epipolar geometry
- arxiv url: http://arxiv.org/abs/2210.00924v2
- Date: Thu, 23 Mar 2023 13:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 18:18:57.361243
- Title: Multi-view object pose estimation from correspondence distributions and
epipolar geometry
- Title(参考訳): 対応分布とエピポーラ幾何による多視点物体ポーズ推定
- Authors: Rasmus Laurvig Haugaard, Thorbj{\o}rn Mosekj{\ae}r Iversen
- Abstract要約: 本稿では,学習した2D-3D分布を,初期推定と任意修正の両方のために複数の視点から集約する多視点ポーズ推定手法を提案する。
提案手法は,最も優れた単一視点法と比較して,ポーズ推定誤差を80~91%削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many automation tasks involving manipulation of rigid objects, the poses
of the objects must be acquired. Vision-based pose estimation using a single
RGB or RGB-D sensor is especially popular due to its broad applicability.
However, single-view pose estimation is inherently limited by depth ambiguity
and ambiguities imposed by various phenomena like occlusion, self-occlusion,
reflections, etc. Aggregation of information from multiple views can
potentially resolve these ambiguities, but the current state-of-the-art
multi-view pose estimation method only uses multiple views to aggregate
single-view pose estimates, and thus rely on obtaining good single-view
estimates. We present a multi-view pose estimation method which aggregates
learned 2D-3D distributions from multiple views for both the initial estimate
and optional refinement. Our method performs probabilistic sampling of 3D-3D
correspondences under epipolar constraints using learned 2D-3D correspondence
distributions which are implicitly trained to respect visual ambiguities such
as symmetry. Evaluation on the T-LESS dataset shows that our method reduces
pose estimation errors by 80-91% compared to the best single-view method, and
we present state-of-the-art results on T-LESS with four views, even compared
with methods using five and eight views.
- Abstract(参考訳): 剛体オブジェクトを操作する多くの自動化タスクでは、オブジェクトのポーズを取得する必要がある。
単一のRGBまたはRGB-Dセンサを用いた視覚ベースのポーズ推定は、その広い適用性から特に人気がある。
しかし, 単一視点のポーズ推定は, 咬合, 自己閉塞, 反射など様々な現象によって課される奥行きあいまいさやあいまいさによって本質的に制限される。
複数のビューからの情報の集約は、これらの曖昧さを解決する可能性があるが、現在の最先端のマルチビューポーズ推定手法は、単一のビューのポーズ推定を集約するために複数のビューのみを使用するため、良いシングルビュー推定を得る必要がある。
本稿では,学習した2D-3D分布を,初期推定と任意修正の両面から集約する多視点ポーズ推定手法を提案する。
本手法は2d-3d対応分布を用いてエピポーラ制約下での3d-3d対応の確率的サンプリングを行う。
このtlessデータセットの評価により,提案手法は,single-view法と比較してポーズ推定誤差を80~91%低減し,5~8 view法と比較しても,t-lessの最先端の結果を4 viewで示す。
関連論文リスト
- SEMPose: A Single End-to-end Network for Multi-object Pose Estimation [13.131534219937533]
SEMPoseは、エンドツーエンドの多目的ポーズ推定ネットワークである。
RGB画像以外の入力を必要とせずに32FPSで推論を行うことができる。
複数のオブジェクトのポーズをリアルタイムで正確に推定でき、対象オブジェクトの数の影響を受けない推論時間に影響を及ぼす。
論文 参考訳(メタデータ) (2024-11-21T10:37:54Z) - BOP-Distrib: Revisiting 6D Pose Estimation Benchmark for Better Evaluation under Visual Ambiguities [0.7499722271664147]
6次元ポーズ推定は、カメラの観察を最もよく説明する対象のポーズを決定することを目的としている。
現在、6次元ポーズ推定法は、その基礎となる真理アノテーションに対して、視覚的曖昧性は、グローバルなオブジェクト対称性にのみ関連していると考えるデータセット上でベンチマークされている。
本稿では,画像内の物体表面の視認性を考慮し,各画像に特有の6次元ポーズ分布を付加したデータセットのアノテート手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T13:52:26Z) - DPODv2: Dense Correspondence-Based 6 DoF Pose Estimation [24.770767430749288]
DPODv2(Dense Pose Object Detector)と呼ばれる3ステージ6DoFオブジェクト検出手法を提案する。
本研究では,2次元物体検出器と高密度対応推定ネットワークを組み合わせることで,フル6DFのポーズを推定する多視点ポーズ補正手法を提案する。
DPODv2は、使用済みのデータモダリティとトレーニングデータの種類によらず、高速でスケーラブルなまま、すべてのデータに対して優れた結果を得る。
論文 参考訳(メタデータ) (2022-07-06T16:48:56Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。