論文の概要: Towards Fair and Comprehensive Comparisons for Image-Based 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2310.05447v2
- Date: Wed, 11 Oct 2023 07:10:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 11:26:10.362648
- Title: Towards Fair and Comprehensive Comparisons for Image-Based 3D Object
Detection
- Title(参考訳): 画像に基づく3次元物体検出の公平かつ包括的比較に向けて
- Authors: Xinzhu Ma, Yongtao Wang, Yinmin Zhang, Zhiyi Xia, Yuan Meng, Zhihui
Wang, Haojie Li, Wanli Ouyang
- Abstract要約: モジュール設計と3Dオブジェクト検出のための統一的なトレーニング標準の構築を行う。
また,検出モデルの詳細な特徴を評価するために,誤り診断ツールボックスを設計する。
- 参考スコア(独自算出の注目度): 73.32210225999056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we build a modular-designed codebase, formulate strong training
recipes, design an error diagnosis toolbox, and discuss current methods for
image-based 3D object detection. In particular, different from other highly
mature tasks, e.g., 2D object detection, the community of image-based 3D object
detection is still evolving, where methods often adopt different training
recipes and tricks resulting in unfair evaluations and comparisons. What is
worse, these tricks may overwhelm their proposed designs in performance, even
leading to wrong conclusions. To address this issue, we build a module-designed
codebase and formulate unified training standards for the community.
Furthermore, we also design an error diagnosis toolbox to measure the detailed
characterization of detection models. Using these tools, we analyze current
methods in-depth under varying settings and provide discussions for some open
questions, e.g., discrepancies in conclusions on KITTI-3D and nuScenes
datasets, which have led to different dominant methods for these datasets. We
hope that this work will facilitate future research in image-based 3D object
detection. Our codes will be released at
\url{https://github.com/OpenGVLab/3dodi}
- Abstract(参考訳): 本研究では,モジュール設計のコードベースを構築し,強固なトレーニングレシピを定式化し,誤り診断ツールボックスの設計を行い,画像に基づく3次元物体検出の現在の方法について議論する。
特に、2Dオブジェクト検出のような他の高度に成熟したタスクとは異なり、画像ベースの3Dオブジェクト検出のコミュニティはいまだ進化しており、様々なトレーニングレシピやトリックを採用する方法が不公平な評価と比較をもたらす。
さらに悪いことに、これらのトリックは、提案された設計をパフォーマンスに圧倒し、誤った結論に至る可能性がある。
この問題に対処するため、モジュール設計のコードベースを構築し、コミュニティのための統一的なトレーニング標準を定式化しています。
さらに,検出モデルの詳細な特徴量を測定するためのエラー診断ツールボックスも設計する。
これらのツールを用いて、さまざまな設定下で現在の手法を詳細に分析し、KITTI-3DデータセットとnuScenesデータセットの結論の相違など、いくつかのオープンな質問について議論する。
この研究が、画像に基づく3Dオブジェクト検出の今後の研究を促進することを期待している。
我々のコードは \url{https://github.com/OpenGVLab/3dodi} でリリースされる。
関連論文リスト
- Attention-Based Depth Distillation with 3D-Aware Positional Encoding for
Monocular 3D Object Detection [10.84784828447741]
ADDは、3D対応の位置符号化を備えた注意に基づく深度知識蒸留フレームワークである。
教師の設計によると、私たちのフレームワークはシームレスで、ドメインギャップフリーで、実装が容易で、オブジェクト指向の地層深度と互換性があります。
我々は,3つの代表的な単分子検出器上でのフレームワークを実装し,予測計算コストの増大を伴わず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-30T06:39:25Z) - Real-time Detection of 2D Tool Landmarks with Synthetic Training Data [0.0]
本稿では,ハンマーやスクリュードライバーなどの物理ツールのランドマークの2次元位置をリアルタイムで検出する深層学習アーキテクチャを提案する。
手動ラベリングの労力を避けるため、ネットワークは合成されたデータに基づいて訓練される。
本論文では, 中間熱マップモデル (Intermediate Heatmap Model, IHM) と命名し, 合成データを用いて実画像に一般化した。
論文 参考訳(メタデータ) (2022-10-21T14:31:43Z) - An Empirical Study of Pseudo-Labeling for Image-based 3D Object
Detection [72.30883544352918]
異なる条件下で,擬似ラベルがベースラインモデルに対して効果的に監視できるかどうかを検討する。
ベルとホイッスルを使わずにKITTI-3Dテストセットの適度なレベルを20.23 APで達成し、ベースラインモデルを6.03 APで改善した。
この研究が、半教師付き環境下で画像に基づく3D検出コミュニティに洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2022-08-15T12:17:46Z) - 3D-Augmented Contrastive Knowledge Distillation for Image-based Object
Pose Estimation [4.415086501328683]
トレーニングプロセスでは3D形状が活用され、テストは依然として純粋に画像ベースである。
マルチモーダルモデルから画像ベースモデルへ3次元拡張画像表現を効果的に転送する新しいコントラスト型知識蒸留フレームワークを提案する。
我々は,既存のカテゴリに依存しない画像ベース手法と比較して,最先端の成果を大きなマージンで報告した。
論文 参考訳(メタデータ) (2022-06-02T16:46:18Z) - End-to-End Learning of Multi-category 3D Pose and Shape Estimation [128.881857704338]
本稿では,画像から2次元キーポイントを同時に検出し,それらを3次元に引き上げるエンド・ツー・エンド手法を提案する。
提案手法は2次元キーポイントアノテーションからのみ2次元検出と3次元リフトを学習する。
画像から3D学習へのエンドツーエンド化に加えて,1つのニューラルネットワークを用いて複数のカテゴリからのオブジェクトも処理する。
論文 参考訳(メタデータ) (2021-12-19T17:10:40Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Monocular Differentiable Rendering for Self-Supervised 3D Object
Detection [21.825158925459732]
単分子画像からの3次元物体検出は、深さとスケールの射影的絡み合いにより不適切な問題である。
テクスチャ化された3次元形状の再構成と剛体物体のポーズ推定のための新しい自己教師手法を提案する。
本手法は,画像中の物体の3次元位置とメッシュを,異なるレンダリングと自己教師対象を用いて予測する。
論文 参考訳(メタデータ) (2020-09-30T09:21:43Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。