論文の概要: Leveraging Positional Encoding for Robust Multi-Reference-Based Object
6D Pose Estimation
- arxiv url: http://arxiv.org/abs/2401.16284v1
- Date: Mon, 29 Jan 2024 16:42:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 14:20:33.659348
- Title: Leveraging Positional Encoding for Robust Multi-Reference-Based Object
6D Pose Estimation
- Title(参考訳): ロバストなマルチリファレンスベースオブジェクト6dポーズ推定のための位置符号化の活用
- Authors: Jaewoo Park, Jaeguk Kim, and Nam Ik Cho
- Abstract要約: 物体の姿勢を正確に推定することは、コンピュータビジョンとロボット工学において重要な課題である。
本稿では,これらの制約を分析し,克服するための新しい戦略を提案する。
Linemod、Linemod-Occlusion、およびYCB-Videoデータセットに関する我々の実験は、我々のアプローチが既存の手法より優れていることを示している。
- 参考スコア(独自算出の注目度): 21.900422840817726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately estimating the pose of an object is a crucial task in computer
vision and robotics. There are two main deep learning approaches for this:
geometric representation regression and iterative refinement. However, these
methods have some limitations that reduce their effectiveness. In this paper,
we analyze these limitations and propose new strategies to overcome them. To
tackle the issue of blurry geometric representation, we use positional encoding
with high-frequency components for the object's 3D coordinates. To address the
local minimum problem in refinement methods, we introduce a normalized image
plane-based multi-reference refinement strategy that's independent of intrinsic
matrix constraints. Lastly, we utilize adaptive instance normalization and a
simple occlusion augmentation method to help our model concentrate on the
target object. Our experiments on Linemod, Linemod-Occlusion, and YCB-Video
datasets demonstrate that our approach outperforms existing methods. We will
soon release the code.
- Abstract(参考訳): 物体の姿勢を正確に推定することは、コンピュータビジョンとロボット工学において重要な課題である。
主なディープラーニングアプローチは、幾何学的表現の回帰と反復的なリファインメントの2つだ。
しかし、これらの手法は有効性を低下させるいくつかの制限がある。
本稿では,これらの限界を分析し,克服するための新しい戦略を提案する。
ぼやけた幾何表現の問題に取り組むために,物体の3次元座標に高周波成分を用いた位置符号化を用いる。
精細化手法における局所的最小問題に対処するために,本質行列制約に依存しない正規化画像平面に基づく多元参照精細化戦略を提案する。
最後に,適応型インスタンス正規化と単純なオクルージョン拡張法を用いて,モデルが対象オブジェクトに集中するのを助ける。
linemod、linemod-occlusion、ycb-video datasetsの実験では、既存の手法よりも優れています。
私たちはすぐにコードをリリースします。
関連論文リスト
- CVAM-Pose: Conditional Variational Autoencoder for Multi-Object Monocular Pose Estimation [3.5379836919221566]
剛体物体のポーズを推定することはコンピュータビジョンの基本的な問題の一つである。
本稿では,多目的単分子ポーズ推定のための新しいアプローチCVAM-Poseを提案する。
論文 参考訳(メタデータ) (2024-10-11T17:26:27Z) - RDPN6D: Residual-based Dense Point-wise Network for 6Dof Object Pose Estimation Based on RGB-D Images [13.051302134031808]
単一のRGB-D画像を用いてオブジェクトの6DoFポーズを計算する新しい手法を提案する。
オブジェクトのポーズを直接予測する既存の手法や、ポーズ回復のためのスパースキーポイントに依存する既存の手法とは異なり、我々のアプローチは密度の高い対応を使ってこの課題に対処する。
論文 参考訳(メタデータ) (2024-05-14T10:10:45Z) - GS-Pose: Category-Level Object Pose Estimation via Geometric and
Semantic Correspondence [5.500735640045456]
カテゴリーレベルのポーズ推定は、コンピュータビジョンやロボット工学における多くの潜在的な応用において難しい課題である。
本稿では,事前学習した基礎モデルから得られる幾何学的特徴と意味的特徴の両方を活用することを提案する。
これは、セマンティックな特徴がオブジェクトのテクスチャや外観に対して堅牢であるため、以前のメソッドよりもトレーニングするデータを大幅に少なくする。
論文 参考訳(メタデータ) (2023-11-23T02:35:38Z) - 3D Video Object Detection with Learnable Object-Centric Global
Optimization [65.68977894460222]
対応性に基づく最適化は3次元シーン再構成の基盤となるが、3次元ビデオオブジェクト検出では研究されていない。
オブジェクト中心の時間対応学習と特徴量付きオブジェクトバンドル調整を備えた、エンドツーエンドで最適化可能なオブジェクト検出器であるBA-Detを提案する。
論文 参考訳(メタデータ) (2023-03-27T17:39:39Z) - Learning Stereopsis from Geometric Synthesis for 6D Object Pose
Estimation [11.999630902627864]
現在のモノクラーベース6Dオブジェクトポーズ推定法は、一般的にRGBDベースの手法よりも競争力の低い結果が得られる。
本稿では,短いベースライン2ビュー設定による3次元幾何体積に基づくポーズ推定手法を提案する。
実験により,本手法は最先端の単分子法よりも優れ,異なる物体やシーンにおいて堅牢であることが示された。
論文 参考訳(メタデータ) (2021-09-25T02:55:05Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Deep Magnification-Flexible Upsampling over 3D Point Clouds [103.09504572409449]
本稿では,高密度点雲を生成するためのエンドツーエンド学習ベースのフレームワークを提案する。
まずこの問題を明示的に定式化し、重みと高次近似誤差を判定する。
そこで我々は,高次改良とともに,統一重みとソート重みを適応的に学習する軽量ニューラルネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-25T14:00:18Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Robust 6D Object Pose Estimation by Learning RGB-D Features [59.580366107770764]
本稿では、この局所最適問題を解くために、回転回帰のための離散連続的な新しい定式化を提案する。
我々はSO(3)の回転アンカーを均一にサンプリングし、各アンカーから目標への制約付き偏差を予測し、最適な予測を選択するための不確実性スコアを出力する。
LINEMOD と YCB-Video の2つのベンチマーク実験により,提案手法が最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-02-29T06:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。