論文の概要: Category-Level Pose Retrieval with Contrastive Features Learnt with
Occlusion Augmentation
- arxiv url: http://arxiv.org/abs/2208.06195v2
- Date: Tue, 16 Aug 2022 13:35:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-17 10:22:14.611438
- Title: Category-Level Pose Retrieval with Contrastive Features Learnt with
Occlusion Augmentation
- Title(参考訳): Occlusion Augmentation で学習したコントラスト特徴をもつカテゴリーレベルポス検索
- Authors: Georgios Kouros and Shubham Shrivastava and C\'edric Picron and
Sushruth Nagesh and Punarjay Chakravarty and Tinne Tuytelaars
- Abstract要約: 本稿では,ダイナミックマージンと連続的なポーズラベル空間を持つ対照的な損失を用いたカテゴリーレベルのポーズ推定手法を提案する。
提案手法は,PASCAL3DおよびOccludedPASCAL3Dの最先端性能と,KITTI3Dの高品質化を実現する。
- 参考スコア(独自算出の注目度): 31.73423009695285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pose estimation is usually tackled as either a bin classification problem or
as a regression problem. In both cases, the idea is to directly predict the
pose of an object. This is a non-trivial task because of appearance variations
of similar poses and similarities between different poses. Instead, we follow
the key idea that it is easier to compare two poses than to estimate them.
Render-and-compare approaches have been employed to that end, however, they
tend to be unstable, computationally expensive, and slow for real-time
applications. We propose doing category-level pose estimation by learning an
alignment metric using a contrastive loss with a dynamic margin and a
continuous pose-label space. For efficient inference, we use a simple real-time
image retrieval scheme with a reference set of renderings projected to an
embedding space. To achieve robustness to real-world conditions, we employ
synthetic occlusions, bounding box perturbations, and appearance augmentations.
Our approach achieves state-of-the-art performance on PASCAL3D and
OccludedPASCAL3D, as well as high-quality results on KITTI3D.
- Abstract(参考訳): ポース推定は通常、ビン分類問題または回帰問題として取り組まれる。
どちらの場合でも、そのアイデアはオブジェクトのポーズを直接予測することである。
これは、類似したポーズの外観のバリエーションと異なるポーズ間の類似性のため、非自明な作業である。
代わりに、見積もりよりも2つのポーズを比較する方が簡単だという重要なアイデアに従います。
しかし、Render-and-Compareアプローチは、リアルタイムアプリケーションでは不安定で、計算コストが高く、遅い傾向にある。
ダイナミックマージンと連続的なポーズラベル空間の対比損失を用いてアライメントメトリックを学習し,カテゴリーレベルのポーズ推定を行う。
効率的な推論のために、埋め込み空間に投影されるレンダリングの参照セットを持つ単純なリアルタイム画像検索方式を用いる。
実世界の環境に対する堅牢性を達成するために,我々は合成オクルージョン,バウンディングボックスの摂動,外観増強を用いる。
提案手法は,PASCAL3DおよびOccludedPASCAL3Dの最先端性能と,KITTI3Dの高品質化を実現する。
関連論文リスト
- DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses [59.51874686414509]
現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。
本稿では,DVMNet(Deep Voxel Matching Network)を提案する。
提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - iComMa: Inverting 3D Gaussian Splatting for Camera Pose Estimation via Comparing and Matching [14.737266480464156]
コンピュータビジョンにおける6次元カメラのポーズ推定問題に対処するため,iComMaという手法を提案する。
3次元ガウススプラッティング(3DGS)の反転による高精度カメラポーズ推定法を提案する。
論文 参考訳(メタデータ) (2023-12-14T15:31:33Z) - ContraNeRF: 3D-Aware Generative Model via Contrastive Learning with
Unsupervised Implicit Pose Embedding [40.36882490080341]
暗黙のポーズ埋め込みを用いたコントラスト学習による新しい3D認識型GAN最適化手法を提案する。
判別器は、与えられた画像から高次元の暗黙のポーズ埋め込みを推定し、ポーズ埋め込みについて対照的な学習を行う。
提案手法は、カメラのポーズを検索したり推定したりしないため、標準カメラのポーズが未定義であるデータセットに使用できる。
論文 参考訳(メタデータ) (2023-04-27T07:53:13Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust
Correspondence Field Estimation and Pose Optimization [46.144194562841435]
本稿では、オブジェクトポーズ改善のためのリカレントニューラルネットワーク(RNN)に基づくフレームワークを提案する。
この問題は、推定対応フィールドに基づいて非線形最小二乗問題として定式化される。
各イテレーションにおいて、対応フィールド推定とポーズ精錬を代替して行い、正確なオブジェクトポーズを復元する。
論文 参考訳(メタデータ) (2022-03-24T06:24:55Z) - Wide-Depth-Range 6D Object Pose Estimation in Space [124.94794113264194]
宇宙での6Dポーズ推定は、地上環境では一般的に遭遇しないユニークな課題を引き起こします。
最も顕著な違いの1つは、大気の散乱の欠如であり、物体を遠くから見えるようにします。
本稿では,単一段階の階層型エンドツーエンドトレーニングネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-01T08:39:26Z) - Deep Dual Consecutive Network for Human Pose Estimation [44.41818683253614]
キーポイント検出を容易にするために,ビデオフレーム間の時間的キューを豊富に活用した,新しいマルチフレーム人間ポーズ推定フレームワークを提案する。
本手法は、PoseTrack 2017およびPoseTrack 2018の大規模ベンチマークデータセットにおけるマルチフレームパーソンポースチャレンジチャレンジで1位にランクインします。
論文 参考訳(メタデータ) (2021-03-12T13:11:27Z) - Deep Bingham Networks: Dealing with Uncertainty and Ambiguity in Pose
Estimation [74.76155168705975]
Deep Bingham Networks (DBN)は、3Dデータに関するほぼすべての実生活アプリケーションで発生するポーズ関連の不確実性と曖昧性を扱うことができる。
DBNは、(i)異なる分布モードを生成できる多仮説予測ヘッドにより、アートダイレクトポーズ回帰ネットワークの状態を拡張する。
トレーニング中のモードや後方崩壊を回避し,数値安定性を向上させるための新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-12-20T19:20:26Z) - Few-shot Action Recognition with Implicit Temporal Alignment and Pair
Similarity Optimization [37.010005936995334]
ほとんどラベル付きサンプルのない新しいクラスからインスタンスを認識することを目的としていない。
ビデオベースの数発のアクション認識は、まだ十分に調査されておらず、まだ挑戦的だ。
本稿では,(1)少数ショットの動作認識アルゴリズムの性能を評価するための具体的設定,(2)ビデオレベルの類似性比較のための暗黙的なシーケンスアライメントアルゴリズム,(3)限定データを用いたペア類似性最適化のための複数ショット学習における高度な損失について述べる。
論文 参考訳(メタデータ) (2020-10-13T07:56:06Z) - Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-04-28T12:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。