論文の概要: Depth-discriminative Metric Learning for Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2401.01075v1
- Date: Tue, 2 Jan 2024 07:34:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 14:36:14.193372
- Title: Depth-discriminative Metric Learning for Monocular 3D Object Detection
- Title(参考訳): 単眼3次元物体検出のための深度識別メトリック学習
- Authors: Wonhyeok Choi, Mingyu Shin, Sunghoon Im
- Abstract要約: 本稿では,視覚的属性に関係なく,モデルが深度識別的特徴を抽出することを奨励する新しい計量学習手法を提案する。
本手法は, 各種ベースラインの性能を平均23.51%, 5.78%向上させる。
- 参考スコア(独自算出の注目度): 14.554132525651868
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Monocular 3D object detection poses a significant challenge due to the lack
of depth information in RGB images. Many existing methods strive to enhance the
object depth estimation performance by allocating additional parameters for
object depth estimation, utilizing extra modules or data. In contrast, we
introduce a novel metric learning scheme that encourages the model to extract
depth-discriminative features regardless of the visual attributes without
increasing inference time and model size. Our method employs the
distance-preserving function to organize the feature space manifold in relation
to ground-truth object depth. The proposed (K, B, eps)-quasi-isometric loss
leverages predetermined pairwise distance restriction as guidance for adjusting
the distance among object descriptors without disrupting the non-linearity of
the natural feature manifold. Moreover, we introduce an auxiliary head for
object-wise depth estimation, which enhances depth quality while maintaining
the inference time. The broad applicability of our method is demonstrated
through experiments that show improvements in overall performance when
integrated into various baselines. The results show that our method
consistently improves the performance of various baselines by 23.51% and 5.78%
on average across KITTI and Waymo, respectively.
- Abstract(参考訳): 単眼の3D物体検出は、RGB画像の深度情報の欠如により大きな課題となる。
既存の多くの手法は、余分なモジュールやデータを利用して、オブジェクト深度推定のための追加パラメータを割り当てることで、オブジェクト深度推定性能の向上に努めている。
対照的に, 推定時間やモデルサイズを増加させることなく, 視覚的属性に関係なく, 奥行き識別特徴を抽出することを奨励する新しいメトリック学習方式を提案する。
本手法では, 距離保存関数を用いて特徴空間多様体を接地被写体深度と関連づける。
提案した(K, B, eps)-準等距離損失は, 自然特徴多様体の非線形性を損なうことなく, 対象記述子間の距離を調整するためのガイダンスとして, 所定の対距離制限を利用する。
さらに,推定時間を維持しながら,深度を向上するオブジェクトワイド深度推定用補助ヘッドを導入する。
本手法の広範な適用性は,各種ベースラインに組み込んだ場合の全体的な性能向上を示す実験によって実証される。
その結果,kitti と waymo のそれぞれ平均で23.51%,5.78% のベースライン性能を一貫して改善できることがわかった。
関連論文リスト
- IDMS: Instance Depth for Multi-scale Monocular 3D Object Detection [1.7710335706046505]
拡張畳み込みに基づくマルチスケール認識モジュールは、異なるスケールターゲットに対するモデルの処理能力を向上するために設計されている。
提案アルゴリズムをKITTIテストセットと評価セットで検証することにより,実験結果から,車種別AP40の5.27%の改善が得られた。
論文 参考訳(メタデータ) (2022-12-03T04:02:31Z) - Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T03:37:59Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Geometry Uncertainty Projection Network for Monocular 3D Object
Detection [138.24798140338095]
本稿では,予測および学習段階の誤り増幅問題に対処するために,幾何不確実性予測ネットワーク(GUP Net)を提案する。
具体的には, GUPモジュールを提案し, 推定深さの幾何誘導不確かさを求める。
トレーニング段階では,エラー増幅による不安定性を低減するための階層型タスク学習戦略を提案する。
論文 参考訳(メタデータ) (2021-07-29T06:59:07Z) - Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文 参考訳(メタデータ) (2021-07-28T11:00:47Z) - Progressive Multi-scale Fusion Network for RGB-D Salient Object
Detection [9.099589602551575]
本稿では,いわゆるプログレッシブ・マルチスケール・フュージョン法の利点について論じ,マスク誘導型特徴集合モジュールを提案する。
提案フレームワークは,異なるモードの2つの特徴を効果的に組み合わせ,誤った深さ特徴の影響を軽減する。
さらに,マスク誘導型改良モジュール(MGRM)を導入し,高レベルの意味的特徴を補完し,マルチスケール融合から無関係な特徴を減らす。
論文 参考訳(メタデータ) (2021-06-07T20:02:39Z) - Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。
実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文 参考訳(メタデータ) (2021-04-06T07:01:28Z) - Monocular 3D Object Detection with Sequential Feature Association and
Depth Hint Augmentation [12.55603878441083]
FADNetは、モノクル3Dオブジェクト検出の課題に対処するために提示される。
専用のディープヒントモジュールは、ディープヒントと呼ばれる行ワイズ機能を生成するように設計されている。
この研究の貢献は、KITTIベンチマークの実験およびアブレーション研究によって検証される。
論文 参考訳(メタデータ) (2020-11-30T07:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。