論文の概要: 6DoF Object Pose Estimation via Differentiable Proxy Voting Loss
- arxiv url: http://arxiv.org/abs/2002.03923v2
- Date: Mon, 4 May 2020 22:24:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 09:08:47.269324
- Title: 6DoF Object Pose Estimation via Differentiable Proxy Voting Loss
- Title(参考訳): 微分可能投票損失による6DoFオブジェクト位置推定
- Authors: Xin Yu and Zheyu Zhuang and Piotr Koniusz and Hongdong Li
- Abstract要約: 我々は,投票手順における仮説選択を模倣した,微分可能な代行投票損失(DPVL)を開発する。
LINEMOD と Occlusion LINEMOD という,広く使用されているデータセットの実験により,DPVL がポーズ推定性能を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 113.72905482334767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating a 6DOF object pose from a single image is very challenging due to
occlusions or textureless appearances. Vector-field based keypoint voting has
demonstrated its effectiveness and superiority on tackling those issues.
However, direct regression of vector-fields neglects that the distances between
pixels and keypoints also affect the deviations of hypotheses dramatically. In
other words, small errors in direction vectors may generate severely deviated
hypotheses when pixels are far away from a keypoint. In this paper, we aim to
reduce such errors by incorporating the distances between pixels and keypoints
into our objective. To this end, we develop a simple yet effective
differentiable proxy voting loss (DPVL) which mimics the hypothesis selection
in the voting procedure. By exploiting our voting loss, we are able to train
our network in an end-to-end manner. Experiments on widely used datasets, i.e.,
LINEMOD and Occlusion LINEMOD, manifest that our DPVL improves pose estimation
performance significantly and speeds up the training convergence.
- Abstract(参考訳): 6DOFオブジェクトのポーズを1つの画像から推定することは、オクルージョンやテクスチャのない外観のために非常に難しい。
ベクターフィールドベースのキーポイント投票は、これらの問題に取り組む際にその効果と優位性を実証した。
しかし、ベクトル場の直接回帰は、画素とキーポイントの間の距離も仮説の偏差に劇的に影響を与えることを無視する。
言い換えると、方向ベクトルの小さな誤差は、ピクセルがキーポイントから遠く離れている場合、ひどくずれた仮説を生み出す可能性がある。
本稿では,画素とキーポイント間の距離を目標に組み込むことで,誤差を低減することを目的とする。
そこで本研究では,投票手順における仮説選択を模倣した,シンプルで効果的な差別化可能なプロキシ投票損失(DPVL)を開発する。
投票損失を利用することで、エンドツーエンドでネットワークをトレーニングすることができます。
LINEMODやOcclusion LINEMODなど,広く使用されているデータセットの実験から,DPVLはポーズ推定性能を大幅に改善し,トレーニング収束を高速化することが示された。
関連論文リスト
- SEMPose: A Single End-to-end Network for Multi-object Pose Estimation [13.131534219937533]
SEMPoseは、エンドツーエンドの多目的ポーズ推定ネットワークである。
RGB画像以外の入力を必要とせずに32FPSで推論を行うことができる。
複数のオブジェクトのポーズをリアルタイムで正確に推定でき、対象オブジェクトの数の影響を受けない推論時間に影響を及ぼす。
論文 参考訳(メタデータ) (2024-11-21T10:37:54Z) - Equipping Diffusion Models with Differentiable Spatial Entropy for Low-Light Image Enhancement [7.302792947244082]
本研究では,決定論的画素間比較から統計的視点へ焦点を移す新しい手法を提案する。
中心となる考え方は、損失関数に空間エントロピーを導入して、予測と目標の分布差を測定することである。
具体的には,拡散モデルにエントロピーを装備し,L1ベースノイズマッチング損失よりも高精度で知覚品質の向上を図っている。
論文 参考訳(メタデータ) (2024-04-15T12:35:10Z) - DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses [59.51874686414509]
現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。
本稿では,DVMNet(Deep Voxel Matching Network)を提案する。
提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Adaptive Face Recognition Using Adversarial Information Network [57.29464116557734]
顔認識モデルは、トレーニングデータがテストデータと異なる場合、しばしば退化する。
本稿では,新たな敵情報ネットワーク(AIN)を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:14:11Z) - Multi-View Keypoints for Reliable 6D Object Pose Estimation [12.436320203635143]
熱マップとキーポイントの推定値を3次元空間上の確率密度マップに結合する新しい多視点手法を提案する。
本研究では, 様々な難易度, 反射率の異なる物体に対して, 約0.5mm, 2°の平均ポーズ推定誤差を示す。
論文 参考訳(メタデータ) (2023-03-29T16:28:11Z) - Linear-Covariance Loss for End-to-End Learning of 6D Pose Estimation [64.12149365530624]
現代の画像に基づく6Dオブジェクトのポーズ推定手法は、2D-3D対応の予測を学習し、そこから解法を用いてポーズを求めることができる。
ここでは、ネットワークが精度を低下させるであろう勾配につながる問題の平均的な性質と矛盾するものであると論じる。
論文 参考訳(メタデータ) (2023-03-21T00:32:31Z) - ALIKE: Accurate and Lightweight Keypoint Detection and Descriptor
Extraction [21.994171434960734]
本稿では,高精度なサブピクセルキーポイントを出力する可変キーポイント検出モジュールを提案する。
次に、これらのサブピクセルキーポイントを直接最適化するために再投影損失を提案し、分散ピーク損失を正確なキーポイント正規化のために提示する。
軽量ネットワークはキーポイント検出とディスクリプタ抽出のために設計されており、商用GPU上で640x480の画像に対して毎秒95フレームで動作する。
論文 参考訳(メタデータ) (2021-12-06T10:10:30Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z) - REDE: End-to-end Object 6D Pose Robust Estimation Using Differentiable
Outliers Elimination [15.736699709454857]
RGB-Dデータを用いた新しいエンドツーエンドオブジェクトポーズ推定器REDEを提案する。
また,候補結果と信頼度を同時に抑制する相違可能な外乱除去手法を提案する。
3つのベンチマークデータセットの実験結果は、REDEが最先端のアプローチをわずかに上回っていることを示している。
論文 参考訳(メタデータ) (2020-10-24T06:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。