Fugu-MT 論文翻訳(概要): Towards Fair and Comprehensive Comparisons for Image-Based 3D Object Detection

論文の概要: Towards Fair and Comprehensive Comparisons for Image-Based 3D Object Detection

arxiv url: http://arxiv.org/abs/2310.05447v1
Date: Mon, 9 Oct 2023 06:43:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 07:22:13.764526
Title: Towards Fair and Comprehensive Comparisons for Image-Based 3D Object Detection
Title（参考訳）: 画像に基づく3次元物体検出の公平かつ包括的比較に向けて
Authors: Xinzhu Ma, Yongtao Wan, Yinmin Zhang, Zhiyi Xia, Yuan Meng, Zhihui Wang, Haojie Li, Wanli Ouyang
Abstract要約: モジュール設計と3Dオブジェクト検出のための統一的なトレーニング標準の構築を行う。また,検出モデルの詳細な特徴を評価するために,誤り診断ツールボックスを設計する。
参考スコア（独自算出の注目度）: 68.66938951183378
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we build a modular-designed codebase, formulate strong training recipes, design an error diagnosis toolbox, and discuss current methods for image-based 3D object detection. In particular, different from other highly mature tasks, e.g., 2D object detection, the community of image-based 3D object detection is still evolving, where methods often adopt different training recipes and tricks resulting in unfair evaluations and comparisons. What is worse, these tricks may overwhelm their proposed designs in performance, even leading to wrong conclusions. To address this issue, we build a module-designed codebase and formulate unified training standards for the community. Furthermore, we also design an error diagnosis toolbox to measure the detailed characterization of detection models. Using these tools, we analyze current methods in-depth under varying settings and provide discussions for some open questions, e.g., discrepancies in conclusions on KITTI-3D and nuScenes datasets, which have led to different dominant methods for these datasets. We hope that this work will facilitate future research in image-based 3D object detection. Our codes will be released at \url{https://github.com/OpenGVLab/3dodi}
Abstract（参考訳）: 本研究では,モジュール設計のコードベースを構築し,強固なトレーニングレシピを定式化し,誤り診断ツールボックスの設計を行い,画像に基づく3次元物体検出の現在の方法について議論する。特に、2Dオブジェクト検出のような他の高度に成熟したタスクとは異なり、画像ベースの3Dオブジェクト検出のコミュニティはいまだ進化しており、様々なトレーニングレシピやトリックを採用する方法が不公平な評価と比較をもたらす。さらに悪いことに、これらのトリックは、提案された設計をパフォーマンスに圧倒し、誤った結論に至る可能性がある。この問題に対処するため、モジュール設計のコードベースを構築し、コミュニティのための統一的なトレーニング標準を定式化しています。さらに,検出モデルの詳細な特徴量を測定するためのエラー診断ツールボックスも設計する。これらのツールを用いて、さまざまな設定下で現在の手法を詳細に分析し、KITTI-3DデータセットとnuScenesデータセットの結論の相違など、いくつかのオープンな質問について議論する。この研究が、画像に基づく3Dオブジェクト検出の今後の研究を促進することを期待している。我々のコードは \url{https://github.com/OpenGVLab/3dodi} でリリースされる。

関連論文リスト

Category-level Object Detection, Pose Estimation and Reconstruction from Stereo Images [15.921719523588996]
既存の単分子法とRGB-D法は、欠落や深さの測定によるスケールの曖昧さに悩まされている。本稿では,カテゴリーレベルの物体検出のための一段階的アプローチであるCoDERSを提案する。私たちのデータセット、コード、デモはプロジェクトのページで公開されます。
論文参考訳（メタデータ） (2024-07-09T15:59:03Z)
Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文参考訳（メタデータ） (2024-04-12T17:58:04Z)
An Empirical Study of Pseudo-Labeling for Image-based 3D Object Detection [72.30883544352918]
異なる条件下で,擬似ラベルがベースラインモデルに対して効果的に監視できるかどうかを検討する。ベルとホイッスルを使わずにKITTI-3Dテストセットの適度なレベルを20.23 APで達成し、ベースラインモデルを6.03 APで改善した。この研究が、半教師付き環境下で画像に基づく3D検出コミュニティに洞察を与えてくれることを願っている。
論文参考訳（メタデータ） (2022-08-15T12:17:46Z)
3D-Augmented Contrastive Knowledge Distillation for Image-based Object Pose Estimation [4.415086501328683]
トレーニングプロセスでは3D形状が活用され、テストは依然として純粋に画像ベースである。マルチモーダルモデルから画像ベースモデルへ3次元拡張画像表現を効果的に転送する新しいコントラスト型知識蒸留フレームワークを提案する。我々は,既存のカテゴリに依存しない画像ベース手法と比較して,最先端の成果を大きなマージンで報告した。
論文参考訳（メタデータ） (2022-06-02T16:46:18Z)
RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文参考訳（メタデータ） (2021-08-17T17:56:12Z)
FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文参考訳（メタデータ） (2021-04-22T09:35:35Z)
Monocular Differentiable Rendering for Self-Supervised 3D Object Detection [21.825158925459732]
単分子画像からの3次元物体検出は、深さとスケールの射影的絡み合いにより不適切な問題である。テクスチャ化された3次元形状の再構成と剛体物体のポーズ推定のための新しい自己教師手法を提案する。本手法は,画像中の物体の3次元位置とメッシュを,異なるレンダリングと自己教師対象を用いて予測する。
論文参考訳（メタデータ） (2020-09-30T09:21:43Z)
DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文参考訳（メタデータ） (2020-04-02T17:48:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。