論文の概要: VI-Net: Boosting Category-level 6D Object Pose Estimation via Learning
Decoupled Rotations on the Spherical Representations
- arxiv url: http://arxiv.org/abs/2308.09916v1
- Date: Sat, 19 Aug 2023 05:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 19:11:31.618605
- Title: VI-Net: Boosting Category-level 6D Object Pose Estimation via Learning
Decoupled Rotations on the Spherical Representations
- Title(参考訳): vi-net: 球面表現の分離回転学習によるカテゴリーレベルの6次元物体ポーズ推定の促進
- Authors: Jiehong Lin and Zewei Wei and Yabin Zhang and Kui Jia
- Abstract要約: 作業を容易にするために,VI-Netと呼ばれる新しい回転推定ネットワークを提案する。
球面信号を処理するために、SPAtial Spherical Convolutionの新たな設計に基づいて、球面特徴ピラミッドネットワークを構築する。
ベンチマークデータセットの実験により,提案手法の有効性が確認された。
- 参考スコア(独自算出の注目度): 55.25238503204253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rotation estimation of high precision from an RGB-D object observation is a
huge challenge in 6D object pose estimation, due to the difficulty of learning
in the non-linear space of SO(3). In this paper, we propose a novel rotation
estimation network, termed as VI-Net, to make the task easier by decoupling the
rotation as the combination of a viewpoint rotation and an in-plane rotation.
More specifically, VI-Net bases the feature learning on the sphere with two
individual branches for the estimates of two factorized rotations, where a
V-Branch is employed to learn the viewpoint rotation via binary classification
on the spherical signals, while another I-Branch is used to estimate the
in-plane rotation by transforming the signals to view from the zenith
direction. To process the spherical signals, a Spherical Feature Pyramid
Network is constructed based on a novel design of SPAtial Spherical Convolution
(SPA-SConv), which settles the boundary problem of spherical signals via
feature padding and realizesviewpoint-equivariant feature extraction by
symmetric convolutional operations. We apply the proposed VI-Net to the
challenging task of category-level 6D object pose estimation for predicting the
poses of unknown objects without available CAD models; experiments on the
benchmarking datasets confirm the efficacy of our method, which outperforms the
existing ones with a large margin in the regime of high precision.
- Abstract(参考訳): RGB-Dオブジェクト観測による高精度の回転推定は,SO(3)の非線形空間での学習が困難であるため,6次元オブジェクトポーズ推定において大きな課題となる。
本稿では,vi-netと呼ばれる新たな回転推定ネットワークを提案し,視点回転と面内回転の組み合わせとして回転を分離することでタスクを容易化する。
より具体的には、vi-net は2つの分枝を持つ球面上の特徴学習をベースとし、2つの因子化された回転の推定を行い、v-ブランチは球面信号の2次分類によって視点回転を学習し、もう1つの i-ブランチは、全角方向から見るように信号を変換して平面内回転を推定する。
球面信号を処理するために,SPA-SConv(SPAtial Spherical Convolution)の新たな設計に基づいて球面特徴ピラミッドネットワークを構築し,特徴パディングによる球面信号の境界問題の解決と対称畳み込み操作による視点-等価特徴抽出を実現する。
提案したVI-Netを,CADモデルを用いない未知物体のポーズを予測するためのカテゴリレベルの6次元オブジェクトポーズ推定の課題に適用した。
関連論文リスト
- 3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction [50.07071392673984]
既存の方法は、角度や四元数を用いて空間領域でパラメータ化された3次元回転を学習する。
本稿では,3次元回転回帰のためのWigner-D係数を直接予測する周波数領域アプローチを提案する。
提案手法は, ModelNet10-SO(3) や PASCAL3D+ などのベンチマーク上での最先端結果を実現する。
論文 参考訳(メタデータ) (2024-11-01T12:50:38Z) - Category-Level 6D Object Pose Estimation with Flexible Vector-Based
Rotation Representation [51.67545893892129]
モノクロRGB-D画像からカテゴリレベルの6次元ポーズとサイズ推定のための新しい3次元グラフ畳み込みに基づくパイプラインを提案する。
まず,3次元グラフ畳み込みを用いた向き対応オートエンコーダの設計を行った。
そして, 回転情報を潜在特徴から効率的に復号化するために, フレキシブルなベクトルベースデコンポーザブルな回転表現を設計する。
論文 参考訳(メタデータ) (2022-12-09T02:13:43Z) - FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose
Estimation with Decoupled Rotation Mechanism [49.89268018642999]
6次元ポーズ推定のための効率的なカテゴリレベルの特徴抽出が可能な高速形状ベースネットワーク(FS-Net)を提案する。
提案手法は,カテゴリレベルおよびインスタンスレベルの6Dオブジェクトのポーズ推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-03-12T03:07:24Z) - 3D Point-to-Keypoint Voting Network for 6D Pose Estimation [8.801404171357916]
3次元キーポイントの空間構造特性に基づくRGB-Dデータから6次元ポーズ推定のためのフレームワークを提案する。
提案手法は, LINEMOD と OCCLUSION LINEMOD の2つのベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-12-22T11:43:15Z) - Rotation-Invariant Local-to-Global Representation Learning for 3D Point
Cloud [42.86112554931754]
本稿では,3次元点クラウドデータに対する局所的-言語的表現学習アルゴリズムを提案する。
本モデルは,グラフ畳み込みニューラルネットワークに基づく多レベル抽象化を利用する。
提案アルゴリズムは,3次元物体の回転認識とセグメント化のベンチマークにおいて,最先端の性能を示す。
論文 参考訳(メタデータ) (2020-10-07T10:30:20Z) - A Smooth Representation of Belief over SO(3) for Deep Rotation Learning
with Uncertainty [33.627068152037815]
本稿では、3次元回転群の新しい対称行列表現 SO(3) と、学習モデルに特に適する2つの重要な性質について述べる。
我々は,2つのデータモダリティに基づいて深部神経回転回帰器を訓練することにより,定式化の利点を実証的に検証した。
この機能は、新しい入力を検出することで、学習したモデルの破滅的な失敗を防ぐ安全クリティカルなアプリケーションにとって鍵となる。
論文 参考訳(メタデータ) (2020-06-01T15:57:45Z) - Cylindrical Convolutional Networks for Joint Object Detection and
Viewpoint Estimation [76.21696417873311]
3次元空間で定義された畳み込みカーネルの円筒形表現を利用する学習可能なモジュールである円筒型畳み込みネットワーク(CCN)を導入する。
CCNはビュー固有の畳み込みカーネルを通してビュー固有の特徴を抽出し、各視点におけるオブジェクトカテゴリスコアを予測する。
本実験は,円柱状畳み込みネットワークが関節物体の検出と視点推定に与える影響を実証する。
論文 参考訳(メタデータ) (2020-03-25T10:24:58Z) - Robust 6D Object Pose Estimation by Learning RGB-D Features [59.580366107770764]
本稿では、この局所最適問題を解くために、回転回帰のための離散連続的な新しい定式化を提案する。
我々はSO(3)の回転アンカーを均一にサンプリングし、各アンカーから目標への制約付き偏差を予測し、最適な予測を選択するための不確実性スコアを出力する。
LINEMOD と YCB-Video の2つのベンチマーク実験により,提案手法が最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-02-29T06:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。