論文の概要: Attention-based Depth Distillation with 3D-Aware Positional Encoding for
Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2211.16779v1
- Date: Wed, 30 Nov 2022 06:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 17:06:46.773875
- Title: Attention-based Depth Distillation with 3D-Aware Positional Encoding for
Monocular 3D Object Detection
- Title(参考訳): モノクロ3次元物体検出のための3次元位置認識符号化による注意型深度蒸留
- Authors: Zizhang Wu, Yunzhe Wu, Jian Pu, Xianzhi Li and Xiaoquan Wang
- Abstract要約: ADDは、3D対応の位置符号化を備えた注意に基づく深度知識蒸留フレームワークである。
教師の設計によると、私たちのフレームワークはシームレスで、ドメインギャップフリーで、実装が容易で、オブジェクト指向の地層深度と互換性があります。
我々は,3つの代表的な単分子検出器上でのフレームワークを実装し,予測計算コストの増大を伴わず,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 10.84784828447741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular 3D object detection is a low-cost but challenging task, as it
requires generating accurate 3D localization solely from a single image input.
Recent developed depth-assisted methods show promising results by using
explicit depth maps as intermediate features, which are either precomputed by
monocular depth estimation networks or jointly evaluated with 3D object
detection. However, inevitable errors from estimated depth priors may lead to
misaligned semantic information and 3D localization, hence resulting in feature
smearing and suboptimal predictions. To mitigate this issue, we propose ADD, an
Attention-based Depth knowledge Distillation framework with 3D-aware positional
encoding. Unlike previous knowledge distillation frameworks that adopt stereo-
or LiDAR-based teachers, we build up our teacher with identical architecture as
the student but with extra ground-truth depth as input. Credit to our teacher
design, our framework is seamless, domain-gap free, easily implementable, and
is compatible with object-wise ground-truth depth. Specifically, we leverage
intermediate features and responses for knowledge distillation. Considering
long-range 3D dependencies, we propose \emph{3D-aware self-attention} and
\emph{target-aware cross-attention} modules for student adaptation. Extensive
experiments are performed to verify the effectiveness of our framework on the
challenging KITTI 3D object detection benchmark. We implement our framework on
three representative monocular detectors, and we achieve state-of-the-art
performance with no additional inference computational cost relative to
baseline models. Our code is available at https://github.com/rockywind/ADD.
- Abstract(参考訳): モノクロ3Dオブジェクト検出は、単一の画像入力からのみ正確な3Dローカライゼーションを生成する必要があるため、低コストで難しい作業である。
近年の奥行き支援手法では,単眼深度推定ネットワークによる事前計算や3次元物体検出による共同評価の中間的特徴として,明示的な奥行きマップを用いた有望な結果が得られる。
しかし、推定された深度事前からの避けられない誤りは、誤ったセマンティック情報と3Dの局所化をもたらし、特徴のスミアリングと準最適予測をもたらす可能性がある。
この問題を軽減するために,3次元位置対応符号化を用いた注意型深度知識蒸留フレームワークであるADDを提案する。
ステレオのLiDARベースの教師を取り入れた従来の知識蒸留フレームワークとは異なり、私たちは学生と同じアーキテクチャで教師を構築できる。
教師の設計によると、私たちのフレームワークはシームレスで、ドメインギャップフリーで、実装が容易で、オブジェクト指向の地層深度と互換性があります。
具体的には,中間的特徴と応答を知識蒸留に活用する。
長距離3D依存を考慮し,学生適応のための「emph{3D-aware self-attention」および「emph{target-aware cross-attention」モジュールを提案する。
KITTI 3Dオブジェクト検出ベンチマークにおけるフレームワークの有効性を検証するため,大規模な実験を行った。
提案手法は,3種類のモノクロ検出器に実装し,ベースラインモデルに対する計算コストを加算することなく,最先端の性能を実現する。
私たちのコードはhttps://github.com/rockywind/addで利用可能です。
関連論文リスト
- MonoTAKD: Teaching Assistant Knowledge Distillation for Monocular 3D Object Detection [42.4932760909941]
モノクロ3D物体検出は、自律運転において必要不可欠な研究課題である。
Mono3Dの課題は、3Dシーンの形状を理解し、単一の画像から3Dオブジェクト情報を再構築することにある。
従来の方法では、LiDARベースの教師から直接3D情報をカメラベースの生徒に転送する試みがあった。
論文 参考訳(メタデータ) (2024-04-07T10:39:04Z) - MonoCD: Monocular 3D Object Detection with Complementary Depths [9.186673054867866]
深度推定は単分子3次元物体検出に不可欠だが挑戦的なサブタスクである。
2つの新しい設計で深度の相補性を高めることを提案する。
KITTIベンチマーク実験により, 余分なデータを導入することなく, 最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2024-04-04T03:30:49Z) - Learning Occupancy for Monocular 3D Object Detection [25.56336546513198]
モノクローナル3次元検出のための占有度学習法であるtextbfOccupancy M3D を提案する。
フラストムと3D空間の占有を直接学習し、より差別的で情報的な3D特徴や表現をもたらす。
KITTIとオープンデータセットの実験により,提案手法が新たな最先端技術を実現し,他の手法をはるかに上回っていることが示された。
論文 参考訳(メタデータ) (2023-05-25T04:03:46Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection [61.89277940084792]
深度誘導型TRansformer(MonoDETR)を用いたモノクロ検出のための最初のDETRフレームワークについて紹介する。
我々は3Dオブジェクト候補を学習可能なクエリとして定式化し、オブジェクトとシーンの深度相互作用を行うための深度誘導デコーダを提案する。
モノクルイメージを入力としてKITTIベンチマークでは、MonoDETRは最先端のパフォーマンスを実現し、追加の深度アノテーションを必要としない。
論文 参考訳(メタデータ) (2022-03-24T19:28:54Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文 参考訳(メタデータ) (2021-02-01T08:18:24Z) - Weakly Supervised 3D Object Detection from Point Clouds [27.70180601788613]
3Dオブジェクト検出は、特定のクラスに属するオブジェクトの3D境界ボックスを検出し、ローカライズすることを目的としている。
既存の3Dオブジェクト検出器は、トレーニング中にアノテーション付き3Dバウンディングボックスに依存している。
基礎となる真理3D境界ボックスを使わずに点雲からの3Dオブジェクト検出を弱教師付きで行うためのフレームワークであるVS3Dを提案する。
論文 参考訳(メタデータ) (2020-07-28T03:30:11Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。