論文の概要: KVN: Keypoints Voting Network with Differentiable RANSAC for Stereo Pose
Estimation
- arxiv url: http://arxiv.org/abs/2307.11543v3
- Date: Mon, 4 Mar 2024 10:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 02:56:04.289473
- Title: KVN: Keypoints Voting Network with Differentiable RANSAC for Stereo Pose
Estimation
- Title(参考訳): KVN: ステレオポース推定のための微分可能なRANSACによる投票ネットワーク
- Authors: Ivano Donadi and Alberto Pretto
- Abstract要約: 我々は、よく知られた単分子ポーズ推定ネットワークに微分可能なRANSAC層を導入する。
本稿では, RANSACが提案した層の精度に果たす役割について述べる。
- 参考スコア(独自算出の注目度): 1.1603243575080535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object pose estimation is a fundamental computer vision task exploited in
several robotics and augmented reality applications. Many established
approaches rely on predicting 2D-3D keypoint correspondences using RANSAC
(Random sample consensus) and estimating the object pose using the PnP
(Perspective-n-Point) algorithm. Being RANSAC non-differentiable,
correspondences cannot be directly learned in an end-to-end fashion. In this
paper, we address the stereo image-based object pose estimation problem by i)
introducing a differentiable RANSAC layer into a well-known monocular pose
estimation network; ii) exploiting an uncertainty-driven multi-view PnP solver
which can fuse information from multiple views. We evaluate our approach on a
challenging public stereo object pose estimation dataset and a custom-built
dataset we call Transparent Tableware Dataset (TTD), yielding state-of-the-art
results against other recent approaches. Furthermore, in our ablation study, we
show that the differentiable RANSAC layer plays a significant role in the
accuracy of the proposed method. We release with this paper the code of our
method and the TTD dataset.
- Abstract(参考訳): オブジェクトポーズ推定は、いくつかのロボティクスや拡張現実アプリケーションで利用される基本的なコンピュータビジョンタスクである。
多くの確立されたアプローチでは、RANSAC (Random sample consensus) を用いて2D-3Dキーポイント対応を予測し、PnP (Perspective-n-Point) アルゴリズムを用いてオブジェクトのポーズを推定する。
RANSACは非微分可能であるため、通信はエンドツーエンドで直接学習することはできない。
本稿では,ステレオ画像に基づく物体ポーズ推定問題に対処する。
一 識別可能なRANSAC層をよく知られた単眼ポーズ推定網に導入すること。
二 複数ビューから情報を融合できる不確実性駆動型多視点pnpソルバの活用
提案手法は,難易度の高い公開ステレオオブジェクトポーズ推定データセットと,透明テーブルウェアデータセット(ttd)と呼ばれるカスタム構築データセットについて評価し,最近の他のアプローチに対して最先端の結果を得る。
さらに,本研究では,RANSAC層が提案手法の精度において重要な役割を担っていることを示す。
本稿では,本手法とTTDデータセットのコードについて述べる。
関連論文リスト
- RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Multi-View Keypoints for Reliable 6D Object Pose Estimation [12.436320203635143]
熱マップとキーポイントの推定値を3次元空間上の確率密度マップに結合する新しい多視点手法を提案する。
本研究では, 様々な難易度, 反射率の異なる物体に対して, 約0.5mm, 2°の平均ポーズ推定誤差を示す。
論文 参考訳(メタデータ) (2023-03-29T16:28:11Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Simultaneous Multiple Object Detection and Pose Estimation using 3D
Model Infusion with Monocular Vision [21.710141497071373]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。
単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。
我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文 参考訳(メタデータ) (2022-11-21T05:18:56Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - 6D Object Pose Estimation using Keypoints and Part Affinity Fields [24.126513851779936]
RGB画像からの6Dオブジェクトのポーズ推定のタスクは、自律型サービスロボットが現実世界と対話できるための重要な要件である。
既知物体の6自由度変換と配向を推定するための2段階パイプラインを提案する。
論文 参考訳(メタデータ) (2021-07-05T14:41:19Z) - Self-supervised Learning of 3D Object Understanding by Data Association
and Landmark Estimation for Image Sequence [15.815583594196488]
2D画像から下降する3Dオブジェクトは、減次元情報から副次元を推測する挑戦的なタスクです。
3Dアノテーションの達成は高価かつ時間を要するため、大量の3Dデータセットを得ることは困難である。
本研究では, 自己性能を克服するために, 画像シーケンス内の物体の多重観測を利用する戦略を提案する。
論文 参考訳(メタデータ) (2021-04-14T18:59:08Z) - Object-Centric Multi-View Aggregation [86.94544275235454]
本稿では,オブジェクトのスパースなビュー集合を集約して,半単純3次元表現を容積特徴格子の形で計算する手法を提案する。
我々のアプローチの鍵となるのは、カメラのポーズを明示することなく、ビューを持ち上げることができるオブジェクト中心の標準3D座標システムである。
画素から標準座標系への対称対応マッピングの計算により、未知の領域への情報伝達がより良くなることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。