論文の概要: Deep Models for Multi-View 3D Object Recognition: A Review
- arxiv url: http://arxiv.org/abs/2404.15224v1
- Date: Tue, 23 Apr 2024 16:54:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:12:44.805360
- Title: Deep Models for Multi-View 3D Object Recognition: A Review
- Title(参考訳): マルチビュー3次元物体認識のためのディープモデル : レビュー
- Authors: Mona Alzahrani, Muhammad Usman, Salma Kammoun, Saeed Anwar, Tarek Helmy,
- Abstract要約: これまで,オブジェクト認識のための多視点3D表現は,最先端性能を実現する上で最も有望な結果であった。
本稿では,3次元分類・検索タスクにおける多視点オブジェクト認識手法の最近の進歩を包括的に紹介する。
- 参考スコア(独自算出の注目度): 16.500711021549947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human decision-making often relies on visual information from multiple perspectives or views. In contrast, machine learning-based object recognition utilizes information from a single image of the object. However, the information conveyed by a single image may not be sufficient for accurate decision-making, particularly in complex recognition problems. The utilization of multi-view 3D representations for object recognition has thus far demonstrated the most promising results for achieving state-of-the-art performance. This review paper comprehensively covers recent progress in multi-view 3D object recognition methods for 3D classification and retrieval tasks. Specifically, we focus on deep learning-based and transformer-based techniques, as they are widely utilized and have achieved state-of-the-art performance. We provide detailed information about existing deep learning-based and transformer-based multi-view 3D object recognition models, including the most commonly used 3D datasets, camera configurations and number of views, view selection strategies, pre-trained CNN architectures, fusion strategies, and recognition performance on 3D classification and 3D retrieval tasks. Additionally, we examine various computer vision applications that use multi-view classification. Finally, we highlight key findings and future directions for developing multi-view 3D object recognition methods to provide readers with a comprehensive understanding of the field.
- Abstract(参考訳): 人間の意思決定は、しばしば複数の視点や視点からの視覚情報に依存する。
対照的に、機械学習に基づく物体認識は、物体の1つの画像からの情報を利用する。
しかし、単一の画像によって伝達される情報は、特に複雑な認識問題において、正確な意思決定には不十分である。
オブジェクト認識における多視点3D表現の利用は,最先端の性能を実現する上で最も有望な結果である。
本稿では,3次元分類・検索タスクにおける多視点オブジェクト認識手法の最近の進歩を包括的に紹介する。
具体的には,Deep Learning-basedおよびTransformer-based技術に焦点をあてる。
本稿では,3次元データセット,カメラ構成,ビュー数,ビュー選択戦略,事前学習されたCNNアーキテクチャ,融合戦略,3次元分類および3次元検索タスクにおける認識性能など,既存のディープラーニングベースおよびトランスフォーマーベースの多視点オブジェクト認識モデルの詳細情報を提供する。
さらに,マルチビュー分類を用いた様々なコンピュータビジョンアプリケーションについて検討する。
最後に,多視点3Dオブジェクト認識手法の開発における重要な発見と今後の方向性に注目し,その分野の総合的な理解を読者に提供する。
関連論文リスト
- AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Fine-grained 3D object recognition: an approach and experiments [0.0]
3次元物体認識技術は、自動車の自律運転などの先進技術における中核技術として利用されている。
i)Global Orthographic Object Descriptor (GOOD)のような手作りのアプローチと、(ii)MobileNetやVGGのようなディープラーニングベースのアプローチである。
本稿では,オブジェクトビューを入力とし,カテゴリラベルを出力として生成するオフライン3Dオブジェクト認識システムを最初に実装した。
オフラインの段階では、インスタンスベースの学習(IBL)が新しいものを形成するために使用される
論文 参考訳(メタデータ) (2023-06-28T04:48:21Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z) - Multi-Task Multi-Sensor Fusion for 3D Object Detection [93.68864606959251]
本稿では,2次元および3次元物体検出と地盤推定と奥行き完了を理由とするエンドツーエンド学習可能なアーキテクチャを提案する。
実験の結果,これらのタスクは相補的であり,様々なレベルで情報を融合することで,ネットワークがよりよい表現を学ぶのに役立つことがわかった。
論文 参考訳(メタデータ) (2020-12-22T22:49:15Z) - MANet: Multimodal Attention Network based Point- View fusion for 3D
Shape Recognition [0.5371337604556311]
本稿では3次元形状認識のためのマルチモーダルアテンション機構に基づく融合ネットワークを提案する。
マルチビューデータの制限を考慮すると,グローバルなポイントクラウド機能を用いてマルチビュー機能をフィルタリングするソフトアテンション方式を導入する。
より具体的には、各マルチビュー画像の全体形状認識への寄与をマイニングすることにより、拡張されたマルチビュー特徴を得る。
論文 参考訳(メタデータ) (2020-02-28T07:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。