論文の概要: Deep Fusion Transformer Network with Weighted Vector-Wise Keypoints
Voting for Robust 6D Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2308.05438v1
- Date: Thu, 10 Aug 2023 08:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 13:10:05.067272
- Title: Deep Fusion Transformer Network with Weighted Vector-Wise Keypoints
Voting for Robust 6D Object Pose Estimation
- Title(参考訳): ロバストな6次元物体ポーズ推定のための重み付きベクトル方向キーポイント投票型ディープフュージョントランスフォーマタネットワーク
- Authors: Jun Zhou, Kai Chen, Linlin Xu, Qi Dou, Jing Qin
- Abstract要約: 本稿では,ポーズ推定を改善するために,モーダリティ特性を集約できる新しいDeep Fusion Transformerを提案する。
また, 高精度な3次元キーポイントローカライゼーションのための非定位的グローバル最適化戦略を利用する, 新しい重み付きベクトルワイズ投票アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 34.37209136057662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One critical challenge in 6D object pose estimation from a single RGBD image
is efficient integration of two different modalities, i.e., color and depth. In
this work, we tackle this problem by a novel Deep Fusion Transformer~(DFTr)
block that can aggregate cross-modality features for improving pose estimation.
Unlike existing fusion methods, the proposed DFTr can better model
cross-modality semantic correlation by leveraging their semantic similarity,
such that globally enhanced features from different modalities can be better
integrated for improved information extraction. Moreover, to further improve
robustness and efficiency, we introduce a novel weighted vector-wise voting
algorithm that employs a non-iterative global optimization strategy for precise
3D keypoint localization while achieving near real-time inference. Extensive
experiments show the effectiveness and strong generalization capability of our
proposed 3D keypoint voting algorithm. Results on four widely used benchmarks
also demonstrate that our method outperforms the state-of-the-art methods by
large margins.
- Abstract(参考訳): 単一のRGBD画像からの6Dオブジェクトのポーズ推定における重要な課題は、色と深さの2つの異なるモードの効率的な統合である。
本研究では, ポーズ推定を改善するために, クロスモダリティ特徴を集約できる新しいディープフュージョントランスフォーマクション(dftr)ブロックによってこの問題に取り組む。
既存の融合法とは異なり、DFTrは、それらの意味的類似性を活用することにより、情報抽出を改善するために、異なるモダリティからグローバルに拡張された特徴をよりよく統合することができる。
さらに,ロバスト性と効率性をさらに高めるため,非イテレーティブな大域的最適化戦略を駆使した重み付きベクトル回り投票アルゴリズムを提案する。
提案する3次元キーポイント投票アルゴリズムの有効性と強汎化能力に関する広範な実験を行った。
また,4つのベンチマークの結果から,提案手法は最先端の手法よりも高い性能を示した。
関連論文リスト
- RDPN6D: Residual-based Dense Point-wise Network for 6Dof Object Pose Estimation Based on RGB-D Images [13.051302134031808]
単一のRGB-D画像を用いてオブジェクトの6DoFポーズを計算する新しい手法を提案する。
オブジェクトのポーズを直接予測する既存の手法や、ポーズ回復のためのスパースキーポイントに依存する既存の手法とは異なり、我々のアプローチは密度の高い対応を使ってこの課題に対処する。
論文 参考訳(メタデータ) (2024-05-14T10:10:45Z) - IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images [50.4538089115248]
シングルビューRGB-D画像からの3Dオブジェクトの汎用化は依然として難しい課題である。
本稿では,暗黙の場学習と点拡散を調和させる新しい手法IPoDを提案する。
CO3D-v2データセットによる実験では、IPoDの優位性が確認され、Fスコアは7.8%、チャンファー距離は28.6%向上した。
論文 参考訳(メタデータ) (2024-03-30T07:17:37Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - GOOD: General Optimization-based Fusion for 3D Object Detection via
LiDAR-Camera Object Candidates [10.534984939225014]
3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。
Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。
nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
論文 参考訳(メタデータ) (2023-03-17T07:05:04Z) - Robust Category-Level 6D Pose Estimation with Coarse-to-Fine Rendering
of Neural Features [17.920305227880245]
1枚のRGB画像からカテゴリレベルの6Dポーズ推定の問題を考察する。
提案手法は,対象カテゴリを立方体メッシュとして表現し,各メッシュにおける神経機能アクティベーションの生成モデルを学習する。
実験では,先行作業と比較して,カテゴリレベルの6次元ポーズ推定性能が向上した。
論文 参考訳(メタデータ) (2022-09-12T21:31:36Z) - Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。
我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文 参考訳(メタデータ) (2022-04-26T18:00:08Z) - SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation [98.83762558394345]
SO-Poseは、オブジェクトの6自由度(6DoF)をすべて、単一のRGBイメージから散らばった環境でポーズさせるフレームワークである。
本稿では,3次元オブジェクトの2層表現を確立するために,自己閉塞に関する新たな推論を導入する。
対応性,自己閉塞性,6次元ポーズを整列する層間合成により,精度とロバスト性をさらに向上させることができる。
論文 参考訳(メタデータ) (2021-08-18T19:49:29Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - 3D Point-to-Keypoint Voting Network for 6D Pose Estimation [8.801404171357916]
3次元キーポイントの空間構造特性に基づくRGB-Dデータから6次元ポーズ推定のためのフレームワークを提案する。
提案手法は, LINEMOD と OCCLUSION LINEMOD の2つのベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-12-22T11:43:15Z) - se(3)-TrackNet: Data-driven 6D Pose Tracking by Calibrating Image
Residuals in Synthetic Domains [12.71983073907091]
本研究では,長期6次元ポーズトラッキングのためのデータ駆動型最適化手法を提案する。
本研究の目的は、現在のRGB-D観測と、前回の推定値と対象物のモデルに基づいて条件付けされた合成画像から、最適な相対的なポーズを特定することである。
提案手法は, 実画像を用いて訓練した場合でも, 常に頑健な評価を達成し, 代替品よりも優れる。
論文 参考訳(メタデータ) (2020-07-27T21:09:36Z) - Robust 6D Object Pose Estimation by Learning RGB-D Features [59.580366107770764]
本稿では、この局所最適問題を解くために、回転回帰のための離散連続的な新しい定式化を提案する。
我々はSO(3)の回転アンカーを均一にサンプリングし、各アンカーから目標への制約付き偏差を予測し、最適な予測を選択するための不確実性スコアを出力する。
LINEMOD と YCB-Video の2つのベンチマーク実験により,提案手法が最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-02-29T06:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。