論文の概要: Occlusion-Robust Object Pose Estimation with Holistic Representation
- arxiv url: http://arxiv.org/abs/2110.11636v1
- Date: Fri, 22 Oct 2021 08:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 14:29:39.121656
- Title: Occlusion-Robust Object Pose Estimation with Holistic Representation
- Title(参考訳): 立体表現を用いたオクルージョン・ロバストオブジェクト・ポース推定
- Authors: Bo Chen, Tat-Jun Chin, Marius Klimavicius
- Abstract要約: State-of-the-art(SOTA)オブジェクトのポーズ推定器は2段階のアプローチを取る。
我々は,新しいブロック・アンド・ブラックアウトバッチ拡張技術を開発した。
また,総合的なポーズ表現学習を促進するためのマルチ精度監視アーキテクチャも開発している。
- 参考スコア(独自算出の注目度): 42.27081423489484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Practical object pose estimation demands robustness against occlusions to the
target object. State-of-the-art (SOTA) object pose estimators take a two-stage
approach, where the first stage predicts 2D landmarks using a deep network and
the second stage solves for 6DOF pose from 2D-3D correspondences. Albeit widely
adopted, such two-stage approaches could suffer from novel occlusions when
generalising and weak landmark coherence due to disrupted features. To address
these issues, we develop a novel occlude-and-blackout batch augmentation
technique to learn occlusion-robust deep features, and a multi-precision
supervision architecture to encourage holistic pose representation learning for
accurate and coherent landmark predictions. We perform careful ablation tests
to verify the impact of our innovations and compare our method to SOTA pose
estimators. Without the need of any post-processing or refinement, our method
exhibits superior performance on the LINEMOD dataset. On the YCB-Video dataset
our method outperforms all non-refinement methods in terms of the ADD(-S)
metric. We also demonstrate the high data-efficiency of our method. Our code is
available at http://github.com/BoChenYS/ROPE
- Abstract(参考訳): 実用的物体ポーズ推定は、対象物体に対する咬合に対するロバスト性を要求する。
State-of-the-art(SOTA)オブジェクトのポーズ推定は2段階のアプローチを採り、第1段階はディープネットワークを用いて2Dランドマークを予測し、第2段階は2D-3D対応から6DOFのポーズを解く。
広く採用されているが、このような2段階のアプローチは、一般化する際に新たな閉塞や、破壊的な特徴によるランドマークの一貫性の弱さに苦しむ可能性がある。
これらの問題に対処するために,オクルージョンロバスト深層特徴を学習するための新しいオクルード・アンド・ブラックアウトバッチ拡張手法と,高精度かつコヒーレントなランドマーク予測のための総合的なポーズ表現学習を促すマルチプレシジョン監督アーキテクチャを開発した。
我々は,我々のイノベーションが与える影響を検証するために注意深いアブレーションテストを行い,本手法をsomaポーズ推定器と比較する。
後処理や改良を一切必要とせずに,本手法はLINEMODデータセットに優れた性能を示す。
YCB-Videoデータセットでは、この手法はADD(-S)メトリックで全ての非精製手法より優れています。
また,本手法の高データ効率性を示す。
私たちのコードはhttp://github.com/BoChenYS/ROPEで利用可能です。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [11.090775523892074]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - SCIPaD: Incorporating Spatial Clues into Unsupervised Pose-Depth Joint Learning [17.99904937160487]
本研究では,教師なし深層学習のための空間的手がかりを取り入れた新しいアプローチであるSCIPaDを紹介する。
SCIPaDは平均翻訳誤差22.2%、カメラポーズ推定タスクの平均角誤差34.8%をKITTI Odometryデータセットで達成している。
論文 参考訳(メタデータ) (2024-07-07T06:52:51Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - OriCon3D: Effective 3D Object Detection using Orientation and Confidence [0.0]
1つの画像から3次元物体を検出するための高度な手法を提案する。
我々は、深層畳み込みニューラルネットワークに基づく3Dオブジェクト重み付け指向回帰パラダイムを用いる。
提案手法は, 3次元オブジェクトのポーズ決定の精度を大幅に向上し, ベースライン法を超越した。
論文 参考訳(メタデータ) (2023-04-27T19:52:47Z) - SOOD: Towards Semi-Supervised Oriented Object Detection [57.05141794402972]
本稿では, 主流の擬似ラベリングフレームワーク上に構築された, SOOD と呼ばれる, 半教師付きオブジェクト指向物体検出モデルを提案する。
提案した2つの損失をトレーニングした場合,SOODはDOTA-v1.5ベンチマークの様々な設定下で,最先端のSSOD法を超越することを示した。
論文 参考訳(メタデータ) (2023-04-10T11:10:42Z) - Object Class Aware Video Anomaly Detection through Image Translation [1.2944868613449219]
本稿では、画像翻訳タスクを通して正常な外見と動きパターンを学習する2ストリームオブジェクト認識型VAD手法を提案する。
その結果,従来の手法の大幅な改善により,本手法による検出は完全に説明可能となり,異常はフレーム内で正確に局所化されることがわかった。
論文 参考訳(メタデータ) (2022-05-03T18:04:27Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。