論文の概要: PViT-6D: Overclocking Vision Transformers for 6D Pose Estimation with
Confidence-Level Prediction and Pose Tokens
- arxiv url: http://arxiv.org/abs/2311.17504v1
- Date: Wed, 29 Nov 2023 10:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 21:57:08.847778
- Title: PViT-6D: Overclocking Vision Transformers for 6D Pose Estimation with
Confidence-Level Prediction and Pose Tokens
- Title(参考訳): PViT-6D:信頼レベル予測とポストークンを用いた6次元ポス推定のためのオーバークロック視覚変換器
- Authors: Sebastian Stapf, Tobias Bauernfeind, Marco Riboldi
- Abstract要約: 分類トークンのカスタマイズによる直接6次元ポーズ推定のための視覚変換器の機能について検討する。
また、ほとんどの6次元ポーズ推定フレームワークに簡単に組み込むことができる、ポーズの信頼度を決定するための簡単な方法も導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the current state of 6D pose estimation, top-performing techniques depend
on complex intermediate correspondences, specialized architectures, and
non-end-to-end algorithms. In contrast, our research reframes the problem as a
straightforward regression task by exploring the capabilities of Vision
Transformers for direct 6D pose estimation through a tailored use of
classification tokens. We also introduce a simple method for determining pose
confidence, which can be readily integrated into most 6D pose estimation
frameworks. This involves modifying the transformer architecture by decreasing
the number of query elements based on the network's assessment of the scene
complexity. Our method that we call Pose Vision Transformer or PViT-6D provides
the benefits of simple implementation and being end-to-end learnable while
outperforming current state-of-the-art methods by +0.3% ADD(-S) on
Linemod-Occlusion and +2.7% ADD(-S) on the YCB-V dataset. Moreover, our method
enhances both the model's interpretability and the reliability of its
performance during inference.
- Abstract(参考訳): 6次元ポーズ推定の現状では、トップパフォーマンス手法は複雑な中間対応、特殊なアーキテクチャ、非エンドツーエンドアルゴリズムに依存する。
対照的に,本研究では,分類トークンのカスタマイズによる直接的6次元ポーズ推定のための視覚トランスフォーマの能力を検討することで,簡単な回帰タスクとして問題を再検討する。
また、ほとんどの6次元ポーズ推定フレームワークに容易に統合できる、ポーズ信頼度を決定する簡単な方法も紹介する。
これは、ネットワークのシーン複雑性の評価に基づいてクエリ要素の数を減らすことによって、トランスフォーマーアーキテクチャを変更することを含む。
我々は Pose Vision Transformer または PViT-6D と呼ぶ手法で,単純な実装の利点と,YCB-V データセット上での ADD(-S) と YCB-V データセット上の 2.7% の ADD(-S) を+0.3% の ADD(-S) で上回りながら,エンドツーエンドで学習できる。
さらに,提案手法はモデルの解釈可能性と推論時の性能の信頼性を両立させる。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Advancing 6D Pose Estimation in Augmented Reality -- Overcoming Projection Ambiguity with Uncontrolled Imagery [0.0]
本研究では,拡張現実(AR)における正確な6次元ポーズ推定の課題に対処する。
本稿では,z軸変換と焦点長の推定を戦略的に分解する手法を提案する。
この手法は6次元ポーズ推定プロセスの合理化だけでなく、AR設定における3次元オブジェクトのオーバーレイの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-20T09:22:22Z) - YOLOPose V2: Understanding and Improving Transformer-based 6D Pose
Estimation [36.067414358144816]
YOLOPoseはトランスフォーマーベースの多目的6Dポーズ推定法である。
キーポイントから向きを予測するために,学習可能な向き推定モジュールを用いる。
提案手法はリアルタイムアプリケーションに適した手法であり,最先端の手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-07-21T12:53:54Z) - TransPose: A Transformer-based 6D Object Pose Estimation Network with
Depth Refinement [5.482532589225552]
深度修正モジュールを用いた改良型トランスフォーマーベースの6次元ポーズ推定法であるTransPoseを提案する。
アーキテクチャはRGB画像のみを入力として取り込むが、深度や熱画像などの追加の補正は行わない。
次に、予測された中心、6Dポーズ、および6Dポーズの精度を向上するために、新しい深度補正モジュールが使用される。
論文 参考訳(メタデータ) (2023-07-09T17:33:13Z) - Robust Category-Level 6D Pose Estimation with Coarse-to-Fine Rendering
of Neural Features [17.920305227880245]
1枚のRGB画像からカテゴリレベルの6Dポーズ推定の問題を考察する。
提案手法は,対象カテゴリを立方体メッシュとして表現し,各メッシュにおける神経機能アクティベーションの生成モデルを学習する。
実験では,先行作業と比較して,カテゴリレベルの6次元ポーズ推定性能が向上した。
論文 参考訳(メタデータ) (2022-09-12T21:31:36Z) - Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。
我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文 参考訳(メタデータ) (2022-04-26T18:00:08Z) - T6D-Direct: Transformers for Multi-Object 6D Pose Direct Regression [40.90172673391803]
T6D-Directは、DreTR上に構築され、6次元多目的ポーズ直接推定を行うトランスフォーマーベースのリアルタイム単一ステージ直接法である。
提案手法は最も高速な推定時間を実現し,ポーズ推定精度は最先端の手法に匹敵する。
論文 参考訳(メタデータ) (2021-09-22T18:13:33Z) - SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation [98.83762558394345]
SO-Poseは、オブジェクトの6自由度(6DoF)をすべて、単一のRGBイメージから散らばった環境でポーズさせるフレームワークである。
本稿では,3次元オブジェクトの2層表現を確立するために,自己閉塞に関する新たな推論を導入する。
対応性,自己閉塞性,6次元ポーズを整列する層間合成により,精度とロバスト性をさらに向上させることができる。
論文 参考訳(メタデータ) (2021-08-18T19:49:29Z) - FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose
Estimation with Decoupled Rotation Mechanism [49.89268018642999]
6次元ポーズ推定のための効率的なカテゴリレベルの特徴抽出が可能な高速形状ベースネットワーク(FS-Net)を提案する。
提案手法は,カテゴリレベルおよびインスタンスレベルの6Dオブジェクトのポーズ推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-03-12T03:07:24Z) - Spatial Attention Improves Iterative 6D Object Pose Estimation [52.365075652976735]
本稿では,RGB画像を用いた6次元ポーズ推定の改良手法を提案する。
私たちの主な洞察力は、最初のポーズ推定の後、オブジェクトの異なる空間的特徴に注意を払うことが重要です。
実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。
論文 参考訳(メタデータ) (2021-01-05T17:18:52Z) - Self6D: Self-Supervised Monocular 6D Object Pose Estimation [114.18496727590481]
自己教師付き学習による単眼6次元ポーズ推定のアイデアを提案する。
ニューラルレンダリングの最近の進歩を活用して、注釈のない実RGB-Dデータのモデルをさらに自己監督する。
論文 参考訳(メタデータ) (2020-04-14T13:16:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。