論文の概要: Deep Learning-Based Object Pose Estimation: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2405.07801v3
- Date: Fri, 31 May 2024 15:11:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 19:23:22.193546
- Title: Deep Learning-Based Object Pose Estimation: A Comprehensive Survey
- Title(参考訳): 深層学習に基づくオブジェクトポース推定 : 総合的な調査
- Authors: Jian Liu, Wei Sun, Hui Yang, Zhiwen Zeng, Chongpei Liu, Jin Zheng, Xingyu Liu, Hossein Rahmani, Nicu Sebe, Ajmal Mian,
- Abstract要約: ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
- 参考スコア(独自算出の注目度): 73.74933379151419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object pose estimation is a fundamental computer vision problem with broad applications in augmented reality and robotics. Over the past decade, deep learning models, due to their superior accuracy and robustness, have increasingly supplanted conventional algorithms reliant on engineered point pair features. Nevertheless, several challenges persist in contemporary methods, including their dependency on labeled training data, model compactness, robustness under challenging conditions, and their ability to generalize to novel unseen objects. A recent survey discussing the progress made on different aspects of this area, outstanding challenges, and promising future directions, is missing. To fill this gap, we discuss the recent advances in deep learning-based object pose estimation, covering all three formulations of the problem, \emph{i.e.}, instance-level, category-level, and unseen object pose estimation. Our survey also covers multiple input data modalities, degrees-of-freedom of output poses, object properties, and downstream tasks, providing the readers with a holistic understanding of this field. Additionally, it discusses training paradigms of different domains, inference modes, application areas, evaluation metrics, and benchmark datasets, as well as reports the performance of current state-of-the-art methods on these benchmarks, thereby facilitating the readers in selecting the most suitable method for their application. Finally, the survey identifies key challenges, reviews the prevailing trends along with their pros and cons, and identifies promising directions for future research. We also keep tracing the latest works at https://github.com/CNJianLiu/Awesome-Object-Pose-Estimation.
- Abstract(参考訳): オブジェクトポーズ推定は、拡張現実やロボット工学の幅広い応用において、基本的なコンピュータビジョン問題である。
過去10年間で、より優れた精度と堅牢性のために、ディープラーニングモデルは、エンジニアリングされたポイントペア機能に依存する従来のアルゴリズムに取って代わる傾向にある。
それでも、ラベル付きトレーニングデータへの依存、モデルコンパクト性、挑戦条件下での堅牢性、新しい未知のオブジェクトに一般化する能力など、現代の手法ではいくつかの課題が続いている。
この分野のさまざまな側面、卓越した課題、将来有望な方向性に関する最近の調査は欠落している。
このギャップを埋めるために、ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じ、問題の3つの定式化である「emph{i.e.}」、インスタンスレベル、カテゴリレベル、不明なオブジェクトポーズ推定を網羅する。
また、複数の入力データモダリティ、出力ポーズの度合い、オブジェクト特性、下流タスクについても調査を行い、この分野の全体的理解を読者に提供する。
さらに、異なるドメイン、推論モード、アプリケーション領域、評価指標、ベンチマークデータセットのトレーニングパラダイムや、これらのベンチマークにおける現在の最先端メソッドのパフォーマンスを報告し、読者がアプリケーションに最も適したメソッドを選択するのを容易にする。
最後に、この調査は主要な課題を特定し、その長所と短所と共に流行傾向をレビューし、将来の研究に向けた有望な方向性を特定する。
また、最新の作業をhttps://github.com/CNJianLiu/Awesome-Object-Pose-Estimationで追跡しています。
関連論文リスト
- ShapeICP: Iterative Category-level Object Pose and Shape Estimation from Depth [15.487722156919988]
単一深度画像からのカテゴリーレベルのオブジェクトのポーズと形状推定は、ロボット工学や自動運転に広く応用されているため、最近研究の注目を集めている。
ポーズアノテートされたデータから学習する必要がない反復的推定法を提案する。
われわれのアルゴリズムはShapeICPと呼ばれ、ICPアルゴリズムの基盤となっているが、カテゴリレベルのポーズと形状推定のための追加機能を備えている。
論文 参考訳(メタデータ) (2024-08-23T15:12:55Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Oriented Object Detection in Optical Remote Sensing Images using Deep Learning: A Survey [10.665235711722076]
オブジェクト指向物体検出は、リモートセンシングにおいて最も基本的で困難なタスクの1つである。
近年,ディープラーニング技術を用いたオブジェクト指向物体検出の進歩が目覚ましい。
論文 参考訳(メタデータ) (2023-02-21T06:31:53Z) - Recent Few-Shot Object Detection Algorithms: A Survey with Performance
Comparison [54.357707168883024]
Few-Shot Object Detection (FSOD)は、人間の学習能力を模倣する。
FSODは、学習した汎用オブジェクトの知識を共通のヘビーテールから新しいロングテールオブジェクトクラスにインテリジェントに転送する。
本稿では,問題定義,共通データセット,評価プロトコルなどを含むFSODの概要を紹介する。
論文 参考訳(メタデータ) (2022-03-27T04:11:28Z) - Few-Shot Object Detection: A Survey [4.266990593059534]
オブジェクト検出は、ターゲットドメイン内の新しいカテゴリの少数のオブジェクトインスタンスから学ぶことを目的としている。
トレーニング手法とアーキテクチャレイアウトに応じてアプローチを分類する。
一般的なデータセットとその評価プロトコルを導入し,ベンチマーク結果を解析する。
論文 参考訳(メタデータ) (2021-12-22T07:08:53Z) - A Comparative Review of Recent Few-Shot Object Detection Algorithms [0.0]
ラベル付きデータで新しいクラスに適応するために学習するオブジェクトの少ない検出は、命令的で長期にわたる問題である。
近年の研究では、ターゲットドメインを監督せずに追加データセットに暗黙の手がかりを使って、少数のショット検出器が堅牢なタスク概念を洗練させる方法が研究されている。
論文 参考訳(メタデータ) (2021-10-30T07:57:11Z) - Unsupervised Domain Adaption of Object Detectors: A Survey [87.08473838767235]
近年のディープラーニングの進歩は、様々なコンピュータビジョンアプリケーションのための正確で効率的なモデルの開発につながっている。
高度に正確なモデルを学ぶには、大量の注釈付きイメージを持つデータセットの可用性に依存する。
このため、ラベルスカースデータセットに視覚的に異なる画像がある場合、モデルの性能は大幅に低下する。
論文 参考訳(メタデータ) (2021-05-27T23:34:06Z) - Deep Learning-Based Human Pose Estimation: A Survey [66.01917727294163]
人間のポーズ推定は、過去10年間に注目を集めてきた。
ヒューマン・コンピュータ・インタラクション、モーション・アナリティクス、拡張現実、バーチャル・リアリティーなど幅広い用途で利用されている。
最近のディープラーニングベースのソリューションは、人間のポーズ推定において高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-12-24T18:49:06Z) - Incremental Object Detection via Meta-Learning [77.55310507917012]
本稿では,段階的タスク間の情報を最適に共有するように,モデル勾配を再形成するメタラーニング手法を提案する。
既存のメタ学習法と比較して,本手法はタスク非依存であり,オブジェクト検出のための高容量モデルに新たなクラスやスケールを段階的に追加することができる。
論文 参考訳(メタデータ) (2020-03-17T13:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。