論文の概要: CASAPose: Class-Adaptive and Semantic-Aware Multi-Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2210.05318v1
- Date: Tue, 11 Oct 2022 10:20:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:23:02.626918
- Title: CASAPose: Class-Adaptive and Semantic-Aware Multi-Object Pose Estimation
- Title(参考訳): CASAPose: クラス適応型およびセマンティック型マルチオブジェクト推定
- Authors: Niklas Gard, Anna Hilsmann, Peter Eisert
- Abstract要約: CASAPoseと呼ばれる新しい単一ステージアーキテクチャを提案する。
RGB画像中の複数の異なるオブジェクトのポーズ推定のための2D-3D対応を1パスで決定する。
高速でメモリ効率が高く、複数のオブジェクトに対して高い精度を実現する。
- 参考スコア(独自算出の注目度): 2.861848675707602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applications in the field of augmented reality or robotics often require
joint localisation and 6d pose estimation of multiple objects. However, most
algorithms need one network per object class to be trained in order to provide
the best results. Analysing all visible objects demands multiple inferences,
which is memory and time-consuming. We present a new single-stage architecture
called CASAPose that determines 2D-3D correspondences for pose estimation of
multiple different objects in RGB images in one pass. It is fast and memory
efficient, and achieves high accuracy for multiple objects by exploiting the
output of a semantic segmentation decoder as control input to a keypoint
recognition decoder via local class-adaptive normalisation. Our new
differentiable regression of keypoint locations significantly contributes to a
faster closing of the domain gap between real test and synthetic training data.
We apply segmentation-aware convolutions and upsampling operations to increase
the focus inside the object mask and to reduce mutual interference of occluding
objects. For each inserted object, the network grows by only one output
segmentation map and a negligible number of parameters. We outperform
state-of-the-art approaches in challenging multi-object scenes with
inter-object occlusion and synthetic training.
- Abstract(参考訳): 拡張現実やロボット工学の分野での応用は、しばしば関節の局所化と、複数の物体の6dポーズ推定を必要とする。
しかし、ほとんどのアルゴリズムは最高の結果を得るために、オブジェクトクラスごとに1つのネットワークを必要とする。
すべての可視オブジェクトを分析するには、メモリと時間を要する複数の推論が必要である。
本稿では,rgb画像中の複数の異なる物体のポーズ推定のための2d-3d対応を決定するcasaposeと呼ばれる新しい単一ステージアーキテクチャを提案する。
高速かつメモリ効率が高く、局所クラス適応正規化によるキーポイント認識デコーダへの制御入力としてセマンティックセグメンテーションデコーダの出力を利用することにより、複数のオブジェクトに対して高い精度を実現する。
キーポイント位置の新たな微分可能な回帰は、実際のテストデータと合成トレーニングデータの間のドメインギャップのより早い終了に寄与します。
分割認識型畳み込みとアップサンプリング操作を適用し,対象マスク内の焦点を拡大し,対象の相互干渉を低減する。
挿入された各オブジェクトに対して、ネットワークは1つの出力セグメンテーションマップと不可分なパラメータで成長する。
我々は、オブジェクト間の閉塞と合成訓練による多目的シーンの挑戦において、最先端のアプローチより優れています。
関連論文リスト
- SEMPose: A Single End-to-end Network for Multi-object Pose Estimation [13.131534219937533]
SEMPoseは、エンドツーエンドの多目的ポーズ推定ネットワークである。
RGB画像以外の入力を必要とせずに32FPSで推論を行うことができる。
複数のオブジェクトのポーズをリアルタイムで正確に推定でき、対象オブジェクトの数の影響を受けない推論時間に影響を及ぼす。
論文 参考訳(メタデータ) (2024-11-21T10:37:54Z) - CVAM-Pose: Conditional Variational Autoencoder for Multi-Object Monocular Pose Estimation [3.5379836919221566]
剛体物体のポーズを推定することはコンピュータビジョンの基本的な問題の一つである。
本稿では,多目的単分子ポーズ推定のための新しいアプローチCVAM-Poseを提案する。
論文 参考訳(メタデータ) (2024-10-11T17:26:27Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Multi-patch Feature Pyramid Network for Weakly Supervised Object
Detection in Optical Remote Sensing Images [39.25541709228373]
マルチパッチ特徴ピラミッドネットワーク(MPFP-Net)を用いたオブジェクト検出のための新しいアーキテクチャを提案する。
MPFP-Netは、トレーニング中の最も差別的なパッチのみを追求する現在のモデルとは異なる。
残余値の正則化と核融合遷移層を厳密にノルム保存する有効な方法を提案する。
論文 参考訳(メタデータ) (2021-08-18T09:25:39Z) - Associating Objects with Transformers for Video Object Segmentation [74.51719591192787]
本稿では,複数のオブジェクトを一様に一致・復号化するためのAssociating Objects with Transformers (AOT)アプローチを提案する。
AOTは複数のターゲットを同一の高次元埋め込み空間に関連付けるための識別機構を用いる。
第3回大規模ビデオオブジェクトチャレンジでは1位にランクインした。
論文 参考訳(メタデータ) (2021-06-04T17:59:57Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - Robust Instance Segmentation through Reasoning about Multi-Object
Occlusion [9.536947328412198]
本稿では,隠蔽に頑健な多目的インスタンスセグメンテーションのためのディープネットワークを提案する。
私たちの研究は、神経機能アクティベーションの生成モデルを学習し、オクローダの発見に役立てています。
特に、オブジェクトクラスとそのインスタンスおよびオクルーダーセグメンテーションのフィードフォワード予測を得る。
論文 参考訳(メタデータ) (2020-12-03T17:41:55Z) - Learning RGB-D Feature Embeddings for Unseen Object Instance
Segmentation [67.88276573341734]
合成データからRGB-D特徴埋め込みを学習し,オブジェクトのインスタンスセグメンテーションを未確認する手法を提案する。
距離学習損失関数を用いて画素単位の機能埋め込みを学習する。
新たな2段階クラスタリングアルゴリズムにより,セグメンテーションの精度をさらに向上する。
論文 参考訳(メタデータ) (2020-07-30T00:23:07Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with
Deep Metric Learning [5.699350798684963]
ディープラーニングを用いた3次元インスタンスセグメンテーションのための,単純かつ効率的なアルゴリズムを提案する。
大規模シーンからの高レベルのインテリジェントなタスクに対して、3Dインスタンスセグメンテーションはオブジェクトの個々のインスタンスを認識する。
我々は,ScanNet 3D インスタンス分割ベンチマークにおいて,我々のアルゴリズムの最先端性能をAPスコアで示す。
論文 参考訳(メタデータ) (2020-07-07T02:17:44Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。