論文の概要: FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation
- arxiv url: http://arxiv.org/abs/2103.02242v1
- Date: Wed, 3 Mar 2021 08:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 14:51:11.851916
- Title: FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation
- Title(参考訳): FFB6D:6次元姿勢推定のためのフルフロー双方向核融合ネットワーク
- Authors: Yisheng He and Haibin Huang and Haoqiang Fan and Qifeng Chen and Jian
Sun
- Abstract要約: 単一RGBD画像からの6次元ポーズ推定のための双方向融合ネットワークであるFFB6Dを提案する。
表現学習と出力表現選択のための表現情報と幾何学情報を組み合わせることを学ぶ。
提案手法は,いくつかのベンチマークにおいて,最先端の手法よりも大きなマージンを達成している。
- 参考スコア(独自算出の注目度): 54.666329929930455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present FFB6D, a Full Flow Bidirectional fusion network
designed for 6D pose estimation from a single RGBD image. Our key insight is
that appearance information in the RGB image and geometry information from the
depth image are two complementary data sources, and it still remains unknown
how to fully leverage them. Towards this end, we propose FFB6D, which learns to
combine appearance and geometry information for representation learning as well
as output representation selection. Specifically, at the representation
learning stage, we build bidirectional fusion modules in the full flow of the
two networks, where fusion is applied to each encoding and decoding layer. In
this way, the two networks can leverage local and global complementary
information from the other one to obtain better representations. Moreover, at
the output representation stage, we designed a simple but effective 3D
keypoints selection algorithm considering the texture and geometry information
of objects, which simplifies keypoint localization for precise pose estimation.
Experimental results show that our method outperforms the state-of-the-art by
large margins on several benchmarks. Code and video are available at
\url{https://github.com/ethnhe/FFB6D.git}.
- Abstract(参考訳): 本研究では,1枚のRGBD画像から6次元ポーズ推定が可能なフルフロー双方向融合ネットワークFFB6Dを提案する。
私たちの重要な洞察力は、RGB画像の外観情報と深度画像からのジオメトリ情報は2つの補完的なデータソースであり、それらを完全に活用する方法はまだ不明です。
そこで本研究では,表現学習と出力表現選択のための外観情報と幾何学情報を組み合わせたFFB6Dを提案する。
具体的には、表現学習段階では、2つのネットワークのフルフローに双方向融合モジュールを構築し、各符号化および復号層に融合を適用します。
このように、2つのネットワークは、他のネットワークからのローカルおよびグローバル補完情報を利用して、より良い表現を得ることができます。
さらに,出力表現段階では,物体のテクスチャや形状情報を考慮した簡易かつ効果的な3次元キーポイント選択アルゴリズムを考案し,正確なポーズ推定のためのキーポイント位置推定を簡略化した。
実験結果から,本手法はいくつかのベンチマークにおいて,最先端の手法よりも高い性能を示した。
コードとビデオは \url{https://github.com/ethnhe/FFB6D.git} で入手できる。
関連論文リスト
- MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images [57.71600854525037]
RGB-D画像からの6次元ポーズ推定のためのFuse-Describe-Match戦略を提案する。
MatchUは、2Dテクスチャと6Dポーズ予測のための3D幾何学的手がかりを融合する汎用的なアプローチである。
論文 参考訳(メタデータ) (2024-03-03T14:01:03Z) - Pseudo Flow Consistency for Self-Supervised 6D Object Pose Estimation [14.469317161361202]
補助情報なしで純粋なRGB画像で訓練できる6次元オブジェクトポーズ推定法を提案する。
提案手法を3つの挑戦的データセット上で評価し,最先端の自己管理手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-19T13:52:18Z) - Pyramid Deep Fusion Network for Two-Hand Reconstruction from RGB-D Images [11.100398985633754]
両手で高密度メッシュを復元するためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはResNet50とPointNet++を使って、RGBとpoint cloudから機能を派生しています。
また,異なるスケールで特徴を集約する新しいピラミッド深層核融合ネットワーク (PDFNet) も導入した。
論文 参考訳(メタデータ) (2023-07-12T09:33:21Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Uni6D: A Unified CNN Framework without Projection Breakdown for 6D Pose
Estimation [21.424035166174352]
最先端のアプローチでは、通常、異なるバックボーンを使用してRGBと深度画像の特徴を抽出する。
2つの独立したバックボーンを使用する重要な理由は、"投射分解"の問題である。
入力としてRGB-D画像とともに、余分なUVデータを明示的に取り出す、シンプルで効果的なUnixDを提案する。
論文 参考訳(メタデータ) (2022-03-28T07:05:27Z) - 6D-ViT: Category-Level 6D Object Pose Estimation via Transformer-based
Instance Representation Learning [0.0]
6D-ViTはトランスフォーマーベースのインスタンス表現学習ネットワークである。
RGB-D画像の高精度なカテゴリレベルのオブジェクトポーズ推定に適している。
論文 参考訳(メタデータ) (2021-10-10T13:34:16Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。