論文の概要: KVN: Keypoints Voting Network with Differentiable RANSAC for Stereo Pose
Estimation
- arxiv url: http://arxiv.org/abs/2307.11543v2
- Date: Wed, 28 Feb 2024 15:46:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 19:04:13.054797
- Title: KVN: Keypoints Voting Network with Differentiable RANSAC for Stereo Pose
Estimation
- Title(参考訳): KVN: ステレオポース推定のための微分可能なRANSACによる投票ネットワーク
- Authors: Ivano Donadi and Alberto Pretto
- Abstract要約: 我々は、よく知られた単分子ポーズ推定ネットワークに微分可能なRANSAC層を導入する。
本稿では, RANSACが提案した層の精度に果たす役割について述べる。
- 参考スコア(独自算出の注目度): 1.1603243575080535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object pose estimation is a fundamental computer vision task exploited in
several robotics and augmented reality applications. Many established
approaches rely on predicting 2D-3D keypoint correspondences using RANSAC
(Random sample consensus) and estimating the object pose using the PnP
(Perspective-n-Point) algorithm. Being RANSAC non-differentiable,
correspondences cannot be directly learned in an end-to-end fashion. In this
paper, we address the stereo image-based object pose estimation problem by i)
introducing a differentiable RANSAC layer into a well-known monocular pose
estimation network; ii) exploiting an uncertainty-driven multi-view PnP solver
which can fuse information from multiple views. We evaluate our approach on a
challenging public stereo object pose estimation dataset and a custom-built
dataset we call Transparent Tableware Dataset (TTD), yielding state-of-the-art
results against other recent approaches. Furthermore, in our ablation study, we
show that the differentiable RANSAC layer plays a significant role in the
accuracy of the proposed method. We release with this paper the code of our
method and the TTD dataset.
- Abstract(参考訳): オブジェクトポーズ推定は、いくつかのロボティクスや拡張現実アプリケーションで利用される基本的なコンピュータビジョンタスクである。
多くの確立されたアプローチでは、RANSAC (Random sample consensus) を用いて2D-3Dキーポイント対応を予測し、PnP (Perspective-n-Point) アルゴリズムを用いてオブジェクトのポーズを推定する。
RANSACは非微分可能であるため、通信はエンドツーエンドで直接学習することはできない。
本稿では,ステレオ画像に基づく物体ポーズ推定問題に対処する。
一 識別可能なRANSAC層をよく知られた単眼ポーズ推定網に導入すること。
二 複数ビューから情報を融合できる不確実性駆動型多視点pnpソルバの活用
提案手法は,難易度の高い公開ステレオオブジェクトポーズ推定データセットと,透明テーブルウェアデータセット(ttd)と呼ばれるカスタム構築データセットについて評価し,最近の他のアプローチに対して最先端の結果を得る。
さらに,本研究では,RANSAC層が提案手法の精度において重要な役割を担っていることを示す。
本稿では,本手法とTTDデータセットのコードについて述べる。
関連論文リスト
- CVAM-Pose: Conditional Variational Autoencoder for Multi-Object Monocular Pose Estimation [3.5379836919221566]
剛体物体のポーズを推定することはコンピュータビジョンの基本的な問題の一つである。
本稿では,多目的単分子ポーズ推定のための新しいアプローチCVAM-Poseを提案する。
論文 参考訳(メタデータ) (2024-10-11T17:26:27Z) - Divide and Conquer: Improving Multi-Camera 3D Perception with 2D Semantic-Depth Priors and Input-Dependent Queries [30.17281824826716]
既存の手法は、しばしば意味と深さの手がかりの相乗効果を無視し、分類と位置推定誤差をもたらす。
本稿では,SemanticsとDepthを先行として活用した入力対応トランスフォーマーフレームワークを提案する。
我々のアプローチは、意味と深さの事前を明示的にモデル化するS-Dを用いることで、オブジェクトの分類と位置推定の学習プロセスを阻害する。
論文 参考訳(メタデータ) (2024-08-13T13:51:34Z) - Category-level Object Detection, Pose Estimation and Reconstruction from Stereo Images [15.921719523588996]
既存の単分子法とRGB-D法は、欠落や深さの測定によるスケールの曖昧さに悩まされている。
本稿では,カテゴリーレベルの物体検出のための一段階的アプローチであるCoDERSを提案する。
私たちのデータセット、コード、デモはプロジェクトのページで公開されます。
論文 参考訳(メタデータ) (2024-07-09T15:59:03Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。
投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。
ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文 参考訳(メタデータ) (2022-11-24T03:27:00Z) - Simultaneous Multiple Object Detection and Pose Estimation using 3D
Model Infusion with Monocular Vision [21.710141497071373]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。
単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。
我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文 参考訳(メタデータ) (2022-11-21T05:18:56Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Self-supervised Learning of 3D Object Understanding by Data Association
and Landmark Estimation for Image Sequence [15.815583594196488]
2D画像から下降する3Dオブジェクトは、減次元情報から副次元を推測する挑戦的なタスクです。
3Dアノテーションの達成は高価かつ時間を要するため、大量の3Dデータセットを得ることは困難である。
本研究では, 自己性能を克服するために, 画像シーケンス内の物体の多重観測を利用する戦略を提案する。
論文 参考訳(メタデータ) (2021-04-14T18:59:08Z) - Object-Centric Multi-View Aggregation [86.94544275235454]
本稿では,オブジェクトのスパースなビュー集合を集約して,半単純3次元表現を容積特徴格子の形で計算する手法を提案する。
我々のアプローチの鍵となるのは、カメラのポーズを明示することなく、ビューを持ち上げることができるオブジェクト中心の標準3D座標システムである。
画素から標準座標系への対称対応マッピングの計算により、未知の領域への情報伝達がより良くなることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。