論文の概要: An End-to-End Transformer Model for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2109.08141v1
- Date: Thu, 16 Sep 2021 17:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 14:17:09.345851
- Title: An End-to-End Transformer Model for 3D Object Detection
- Title(参考訳): 3次元物体検出のためのエンド・ツー・エンド変圧器モデル
- Authors: Ishan Misra, Rohit Girdhar, Armand Joulin
- Abstract要約: 3DETRは3Dポイントクラウドのためのエンドツーエンドのトランスフォーマーベースのオブジェクト検出モデルである。
3DETRは、ScanNetV2データセットを9.5%向上させ、十分に確立され、高度に最適化されたVotetNetベースラインを上回っている。
- 参考スコア(独自算出の注目度): 39.86969344736215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose 3DETR, an end-to-end Transformer based object detection model for
3D point clouds. Compared to existing detection methods that employ a number of
3D-specific inductive biases, 3DETR requires minimal modifications to the
vanilla Transformer block. Specifically, we find that a standard Transformer
with non-parametric queries and Fourier positional embeddings is competitive
with specialized architectures that employ libraries of 3D-specific operators
with hand-tuned hyperparameters. Nevertheless, 3DETR is conceptually simple and
easy to implement, enabling further improvements by incorporating 3D domain
knowledge. Through extensive experiments, we show 3DETR outperforms the
well-established and highly optimized VoteNet baselines on the challenging
ScanNetV2 dataset by 9.5%. Furthermore, we show 3DETR is applicable to 3D tasks
beyond detection, and can serve as a building block for future research.
- Abstract(参考訳): 3dポイントクラウドのためのエンドツーエンドトランスフォーマベースの物体検出モデルである3detrを提案する。
3d固有のインダクティブバイアスを用いる既存の検出方法と比較すると、3detrはバニラ変圧器ブロックの最小限の変更を必要とする。
具体的には、非パラメトリッククエリとフーリエ位置埋め込みを備えた標準変換器は、手動のハイパーパラメータを持つ3D固有演算子のライブラリを使用する特殊なアーキテクチャと競合する。
それでも、3DETRは概念的にはシンプルで実装が容易であり、3Dドメイン知識を取り入れることでさらなる改善を可能にする。
広範な実験を通じて、3DETRは、挑戦的なScanNetV2データセット上で、確立された高度に最適化されたVoteNetベースラインを9.5%向上させる。
さらに,3DETRは検出以外の3次元タスクに適用可能であることを示し,今後の研究のためのビルディングブロックとして機能することを示す。
関連論文リスト
- EVT: Efficient View Transformation for Multi-Modal 3D Object Detection [2.9848894641223302]
効率的なビュー変換(EVT)による新しい3次元物体検出法を提案する。
EVTは、アダプティブサンプリングとアダプティブプロジェクション(ASAP)を使用して、3Dサンプリングポイントとアダプティブカーネルを生成する。
トランスデコーダ内で得られたマルチモーダルBEV機能を効果的に活用するように設計されている。
論文 参考訳(メタデータ) (2024-11-16T06:11:10Z) - CT3D++: Improving 3D Object Detection with Keypoint-induced Channel-wise Transformer [42.68740105997167]
手作りの最小限の設計で3Dオブジェクト検出を行うフレームワークを2つ導入する。
まず,本提案では,各提案において,生点ベースの埋め込み,標準トランスフォーマーエンコーダ,チャンネルワイドデコーダを順次実行するCT3Dを提案する。
次に、幾何学的および意味論的融合に基づく埋め込みを組み込んだCT3D++と呼ばれる拡張ネットワークを提案し、より価値があり包括的な提案認識情報を取り出す。
論文 参考訳(メタデータ) (2024-06-12T12:40:28Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - SRCN3D: Sparse R-CNN 3D for Compact Convolutional Multi-View 3D Object
Detection and Tracking [12.285423418301683]
本稿では,スパースクエリ,ボックスワイズサンプリングによるスパースアテンション,スパース予測を組み込んだ新しい2段フルスパース検出器であるスパースR-CNN3Dを提案する。
nuScenesデータセットの実験では、SRCN3Dは3Dオブジェクト検出とマルチオブジェクト追跡の両方で競合性能を達成している。
論文 参考訳(メタデータ) (2022-06-29T07:58:39Z) - Transformers in 3D Point Clouds: A Survey [27.784721081318935]
3Dトランスフォーマーモデルは、長距離依存モデリングの驚くべき能力があることが証明されている。
本調査は,各種タスク用に設計された3Dトランスフォーマーの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2022-05-16T01:32:18Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。