論文の概要: MonoMAE: Enhancing Monocular 3D Detection through Depth-Aware Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2405.07696v2
- Date: Tue, 15 Oct 2024 05:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:58:09.418677
- Title: MonoMAE: Enhancing Monocular 3D Detection through Depth-Aware Masked Autoencoders
- Title(参考訳): MonoMAE:Depth-Aware Masked Autoencodersによる単眼3D検出の強化
- Authors: Xueying Jiang, Sheng Jin, Xiaoqin Zhang, Ling Shao, Shijian Lu,
- Abstract要約: Masked Autoencodersにインスパイアされたモノクラー3D検出器MonoMAEを設計する。
MonoMAEは2つの新しい設計で構成されている。第一に、非閉塞オブジェクトクエリの特定の部分を選択的にマスキングするディープ・アウェア・マスクである。
2つ目は軽量なクエリ補完で、ディープ・アウェア・マスキングと連携して、マスキングされたオブジェクトクエリの再構築と完了を学習する。
- 参考スコア(独自算出の注目度): 93.87585467898252
- License:
- Abstract: Monocular 3D object detection aims for precise 3D localization and identification of objects from a single-view image. Despite its recent progress, it often struggles while handling pervasive object occlusions that tend to complicate and degrade the prediction of object dimensions, depths, and orientations. We design MonoMAE, a monocular 3D detector inspired by Masked Autoencoders that addresses the object occlusion issue by masking and reconstructing objects in the feature space. MonoMAE consists of two novel designs. The first is depth-aware masking that selectively masks certain parts of non-occluded object queries in the feature space for simulating occluded object queries for network training. It masks non-occluded object queries by balancing the masked and preserved query portions adaptively according to the depth information. The second is lightweight query completion that works with the depth-aware masking to learn to reconstruct and complete the masked object queries. With the proposed object occlusion and completion, MonoMAE learns enriched 3D representations that achieve superior monocular 3D detection performance qualitatively and quantitatively for both occluded and non-occluded objects. Additionally, MonoMAE learns generalizable representations that can work well in new domains.
- Abstract(参考訳): モノクロ3Dオブジェクト検出は、単一視点画像からのオブジェクトの正確な3Dローカライゼーションと識別を目的としている。
最近の進歩にもかかわらず、オブジェクトの次元、深さ、方向の予測を複雑にし、分解する傾向がある広汎なオブジェクトの閉塞を扱うのに、しばしば苦労する。
我々は,モノクロ3D検出器MonoMAEを設計した。これはMasked Autoencodersにインスパイアされたモノクロ3D検出器で,特徴空間におけるオブジェクトのマスキングと再構成によってオブジェクトの隠蔽問題に対処する。
MonoMAEは2つの新しいデザインで構成されている。
1つ目はディープ・アウェア・マスキングで、ネットワークトレーニングのために隠蔽されたオブジェクトクエリをシミュレートするための特徴空間内の非隠蔽オブジェクトクエリの特定の部分を選択的にマスキングする。
隠蔽されたオブジェクトクエリを、奥行き情報に応じて適応的にマスクおよび保存されたクエリ部分のバランスをとることでマスクする。
2つ目は軽量なクエリ補完で、ディープ・アウェア・マスキングと連携して、マスキングされたオブジェクトクエリの再構築と完了を学習する。
提案したオブジェクトの閉塞と完成により,MonoMAEは,隠蔽対象と非隠蔽対象の両方に対して,質的かつ定量的に優れた単分子3D検出性能を実現するようなリッチな3D表現を学習する。
さらに、MonoMAEは新しいドメインでうまく機能する一般化可能な表現を学ぶ。
関連論文リスト
- Pluralistic Salient Object Detection [108.74650817891984]
本稿では,与えられた入力画像に対して,複数の有意な有意な有意な有意な有意な有意な分割結果を生成することを目的とした新しい課題であるPSOD(multiistic Salient Object Detection)を紹介する。
新たに設計された評価指標とともに,2つのSODデータセット "DUTS-MM" と "DUS-MQ" を提案する。
論文 参考訳(メタデータ) (2024-09-04T01:38:37Z) - DORec: Decomposed Object Reconstruction and Segmentation Utilizing 2D Self-Supervised Features [33.04128557550782]
ニューラル暗黙表現に基づく分解対象再構成ネットワークを提案する。
私たちのキーとなるアイデアは、2次元の自己監督機能を使って、前景領域の2次元マスクと、意味的に類似した領域のKクラスターマスクという2つのレベルのマスクを作成することです。
異なるデータセットに対する実験結果は、ポーズ推定などの下流タスクを可能にする様々な背景から、DORecが様々な前景オブジェクトのセグメンテーションと再構成に優れていることを示している。
論文 参考訳(メタデータ) (2023-10-17T09:21:29Z) - MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with
Informative-Preserved Reconstruction and Self-Distilled Consistency [120.9499803967496]
本稿では,地域統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築法を提案する。
本手法は, 地域形状のモデル化に集中し, マスク復元のあいまいさを軽減できる。
マスク付き領域における情報保存型再構築と未加工領域からの連続自己蒸留を組み合わせることにより,MM-3DSceneと呼ばれる統合フレームワークが提供される。
論文 参考訳(メタデータ) (2022-12-20T01:53:40Z) - CamoFormer: Masked Separable Attention for Camouflaged Object Detection [94.2870722866853]
カモフラージュされた物体検出のための単純なマスク付き分離型注意(MSA)を提案する。
まず,マルチヘッド・セルフアテンションを3つの部分に分割し,異なるマスキング戦略を用いて,背景からカモフラージュした物体を識別する役割を担っている。
提案手法では,MSAを用いた単純なトップダウンデコーダを用いて,高精度なセグメンテーション結果を得るために,高分解能なセグメンテーション表現を段階的にキャプチャする。
論文 参考訳(メタデータ) (2022-12-10T10:03:27Z) - A Tri-Layer Plugin to Improve Occluded Detection [100.99802831241583]
本研究では,2段階物体検出装置の頭部検出のための単純な''モジュールを提案し,部分閉塞物体のリコールを改善する。
モジュールは、ターゲットオブジェクト、オクルーダー、オクラデーのセグメンテーションマスクの三層を予測し、それによってターゲットオブジェクトのマスクをより正確に予測することができる。
また,COCO評価データセットを構築し,部分閉塞オブジェクトと分離オブジェクトのリコール性能を測定した。
論文 参考訳(メタデータ) (2022-10-18T17:59:51Z) - MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection [61.89277940084792]
深度誘導型TRansformer(MonoDETR)を用いたモノクロ検出のための最初のDETRフレームワークについて紹介する。
我々は3Dオブジェクト候補を学習可能なクエリとして定式化し、オブジェクトとシーンの深度相互作用を行うための深度誘導デコーダを提案する。
モノクルイメージを入力としてKITTIベンチマークでは、MonoDETRは最先端のパフォーマンスを実現し、追加の深度アノテーションを必要としない。
論文 参考訳(メタデータ) (2022-03-24T19:28:54Z) - MonoGRNet: A General Framework for Monocular 3D Object Detection [23.59839921644492]
幾何学的推論によるモノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。
MonoGRNetは、モノラル3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3Dセンター推定、ローカルコーナー回帰を含む4つのサブタスクに分解する。
KITTI、Cityscapes、MS COCOデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-04-18T10:07:52Z) - Monocular Differentiable Rendering for Self-Supervised 3D Object
Detection [21.825158925459732]
単分子画像からの3次元物体検出は、深さとスケールの射影的絡み合いにより不適切な問題である。
テクスチャ化された3次元形状の再構成と剛体物体のポーズ推定のための新しい自己教師手法を提案する。
本手法は,画像中の物体の3次元位置とメッシュを,異なるレンダリングと自己教師対象を用いて予測する。
論文 参考訳(メタデータ) (2020-09-30T09:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。