論文の概要: 6D-ViT: Category-Level 6D Object Pose Estimation via Transformer-based
Instance Representation Learning
- arxiv url: http://arxiv.org/abs/2110.04792v1
- Date: Sun, 10 Oct 2021 13:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 18:05:09.123877
- Title: 6D-ViT: Category-Level 6D Object Pose Estimation via Transformer-based
Instance Representation Learning
- Title(参考訳): 6D-ViT: Transformer-based Instance Representation Learning によるカテゴリーレベル6Dオブジェクトポス推定
- Authors: Lu Zou and Zhangjin Huang
- Abstract要約: 6D-ViTはトランスフォーマーベースのインスタンス表現学習ネットワークである。
RGB-D画像の高精度なカテゴリレベルのオブジェクトポーズ推定に適している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents 6D-ViT, a transformer-based instance representation
learning network, which is suitable for highly accurate category-level object
pose estimation on RGB-D images. Specifically, a novel two-stream
encoder-decoder framework is dedicated to exploring complex and powerful
instance representations from RGB images, point clouds and categorical shape
priors. For this purpose, the whole framework consists of two main branches,
named Pixelformer and Pointformer. The Pixelformer contains a pyramid
transformer encoder with an all-MLP decoder to extract pixelwise appearance
representations from RGB images, while the Pointformer relies on a cascaded
transformer encoder and an all-MLP decoder to acquire the pointwise geometric
characteristics from point clouds. Then, dense instance representations (i.e.,
correspondence matrix, deformation field) are obtained from a multi-source
aggregation network with shape priors, appearance and geometric information as
input. Finally, the instance 6D pose is computed by leveraging the
correspondence among dense representations, shape priors, and the instance
point clouds. Extensive experiments on both synthetic and real-world datasets
demonstrate that the proposed 3D instance representation learning framework
achieves state-of-the-art performance on both datasets, and significantly
outperforms all existing methods.
- Abstract(参考訳): 本稿では,RGB-D画像の高精度なカテゴリレベルのオブジェクトポーズ推定に適したトランスフォーマーベースのインスタンス表現学習ネットワークである6D-ViTを提案する。
特に、新しい2ストリームエンコーダ-デコーダフレームワークは、rgbイメージ、ポイントクラウド、カテゴリシェイプから複雑で強力なインスタンス表現を探索するために使われる。
この目的のために、フレームワーク全体はPixelformerとPointformerという2つのメインブランチで構成されている。
Pixelformerは、全MLPデコーダを備えたピラミッドトランスフォーマーエンコーダを含み、RGB画像から画素方向の外観表現を抽出し、Pointformerはカスケード変換器エンコーダと全MLPデコーダに依存して点雲から点方向の幾何学的特徴を取得する。
そして、形状先、外観、幾何学情報を入力とする多ソース集約ネットワークから、高密度なインスタンス表現(すなわち、対応行列、変形場)を得る。
最後に、高密度表現、形状先行、インスタンス点雲の対応を利用して、インスタンス6Dポーズを算出する。
合成データと実世界のデータセットの両方に関する広範な実験により、提案された3dインスタンス表現学習フレームワークが、両方のデータセットで最先端のパフォーマンスを達成し、既存のメソッドを著しく上回っていることが示されている。
関連論文リスト
- TransPose: 6D Object Pose Estimation with Geometry-Aware Transformer [16.674933679692728]
TransPoseは、Transformerをジオメトリ対応モジュールで活用して、ポイントクラウドの特徴表現の学習を改善する、新しい6Dポーズフレームワークである。
TransPoseは3つのベンチマークデータセットで競合する結果を達成する。
論文 参考訳(メタデータ) (2023-10-25T01:24:12Z) - Category-level Shape Estimation for Densely Cluttered Objects [94.64287790278887]
そこで本研究では,密に散らばった物体のカテゴリレベルの形状推定手法を提案する。
我々のフレームワークは、多視点視覚情報融合によって、各オブジェクトをクラッタに分割する。
シミュレーション環境と実世界の実験から,本手法が高精度な形状推定を実現することが示された。
論文 参考訳(メタデータ) (2023-02-23T13:00:17Z) - PSFormer: Point Transformer for 3D Salient Object Detection [8.621996554264275]
PSFormerはエンコーダとデコーダのネットワークであり、コンテクスト情報をモデル化するためにトランスフォーマーを最大限に活用する。
エンコーダではポイントコンテキスト変換器(PCT)モジュールを開発し、ポイントレベルでの領域コンテキストの特徴をキャプチャする。
デコーダでは,シーンレベルでコンテキスト表現を学習するためのSCT (Scene Context Transformer) モジュールを開発した。
論文 参考訳(メタデータ) (2022-10-28T06:34:28Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation [54.666329929930455]
単一RGBD画像からの6次元ポーズ推定のための双方向融合ネットワークであるFFB6Dを提案する。
表現学習と出力表現選択のための表現情報と幾何学情報を組み合わせることを学ぶ。
提案手法は,いくつかのベンチマークにおいて,最先端の手法よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-03-03T08:07:29Z) - Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud [50.56461318879761]
3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。
3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
論文 参考訳(メタデータ) (2020-12-20T13:35:00Z) - Shape Prior Deformation for Categorical 6D Object Pose and Size
Estimation [62.618227434286]
RGB-D画像から見えないオブジェクトの6Dポーズとサイズを復元する新しい学習手法を提案する。
本研究では,事前学習したカテゴリ形状からの変形を明示的にモデル化することにより,3次元オブジェクトモデルを再構築するディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-07-16T16:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。