論文の概要: StereoDETR: Stereo-based Transformer for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2511.18788v1
- Date: Mon, 24 Nov 2025 05:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.038922
- Title: StereoDETR: Stereo-based Transformer for 3D Object Detection
- Title(参考訳): StereoDETR:3次元物体検出のためのステレオトランス
- Authors: Shiyi Mu, Zichong Gu, Zhiqi Ai, Anqi Liu, Yilin Gao, Shugong Xu,
- Abstract要約: 我々は,DETRに基づく効率的なステレオ3Dオブジェクト検出フレームワークであるStereoDETRを提案する。
単分子アプローチの精度は2倍になるが、推論速度はわずか半分である。
また、KITTIベンチマークの競合精度も達成し、歩行者およびサイクリストのサブセットに新たな最先端の結果を設定する。
- 参考スコア(独自算出の注目度): 29.652689845108046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared to monocular 3D object detection, stereo-based 3D methods offer significantly higher accuracy but still suffer from high computational overhead and latency. The state-of-the-art stereo 3D detection method achieves twice the accuracy of monocular approaches, yet its inference speed is only half as fast. In this paper, we propose StereoDETR, an efficient stereo 3D object detection framework based on DETR. StereoDETR consists of two branches: a monocular DETR branch and a stereo branch. The DETR branch is built upon 2D DETR with additional channels for predicting object scale, orientation, and sampling points. The stereo branch leverages low-cost multi-scale disparity features to predict object-level depth maps. These two branches are coupled solely through a differentiable depth sampling strategy. To handle occlusion, we introduce a constrained supervision strategy for sampling points without requiring extra annotations. StereoDETR achieves real-time inference and is the first stereo-based method to surpass monocular approaches in speed. It also achieves competitive accuracy on the public KITTI benchmark, setting new state-of-the-art results on pedestrian and cyclist subsets. The code is available at https://github.com/shiyi-mu/StereoDETR-OPEN.
- Abstract(参考訳): モノクロ3Dオブジェクト検出と比較して、ステレオベースの3D法は精度がかなり高いが、高い計算オーバーヘッドと遅延に悩まされている。
最先端のステレオ3D検出法は, 単分子アプローチの精度を2倍に向上するが, 推論速度は半分程度である。
本稿では,DTRに基づく効率的なステレオ3Dオブジェクト検出フレームワークであるStereoDETRを提案する。
StereoDETRは、単分子のDETR分岐とステレオ分岐の2つの分岐からなる。
DETRブランチは2D DETR上に構築されており、オブジェクトのスケール、向き、サンプリングポイントを予測するための追加チャンネルがある。
ステレオブランチは、オブジェクトレベルの深度マップを予測するために、低コストのマルチスケール格差機能を活用する。
これら2つの枝は、微分可能な深さサンプリング戦略によってのみ結合される。
そこで我々は,追加のアノテーションを必要とせず,点をサンプリングするための制約付き監視戦略を導入する。
StereoDETRはリアルタイム推論を実現し,単分子アプローチを高速に越える最初のステレオベース手法である。
また、KITTIベンチマークの競合精度も達成し、歩行者およびサイクリストのサブセットに新たな最先端の結果を設定する。
コードはhttps://github.com/shiyi-mu/StereoDETR-OPENで公開されている。
関連論文リスト
- SVDM: Single-View Diffusion Model for Pseudo-Stereo 3D Object Detection [0.0]
Pseudo-Stereoに基づくモノクル3D検出のためのフレームワークが最近提案され、コミュニティで注目されている。
本研究では,単一視点拡散モデルを導入することで,エンドツーエンドで効率的な擬似ステレオ3D検出フレームワークを提案する。
SVDMは擬似ステレオ3D検出パイプライン全体をエンドツーエンドで訓練することができ、ステレオ検出器の訓練の恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-07-05T13:10:37Z) - DSGN++: Exploiting Visual-Spatial Relation forStereo-based 3D Detectors [60.88824519770208]
カメラベースの3Dオブジェクト検出器は、LiDARセンサーよりも広い展開と低価格のため歓迎されている。
我々は3次元幾何学と意味論の両方を表現するステレオボリューム構造について、以前のステレオモデリングDSGNを再考する。
本稿では,2次元から3次元のパイプラインを通しての情報フローを改善することを目的としたDSGN++を提案する。
論文 参考訳(メタデータ) (2022-04-06T18:43:54Z) - MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection [57.969536140562674]
深度誘導型TRansformer(MonoDETR)を用いたモノクロ検出のための最初のDETRフレームワークについて紹介する。
我々は3Dオブジェクト候補を学習可能なクエリとして定式化し、オブジェクトとシーンの深度相互作用を行うための深度誘導デコーダを提案する。
モノクルイメージを入力としてKITTIベンチマークでは、MonoDETRは最先端のパフォーマンスを実現し、追加の深度アノテーションを必要としない。
論文 参考訳(メタデータ) (2022-03-24T19:28:54Z) - LIGA-Stereo: Learning LiDAR Geometry Aware Representations for
Stereo-based 3D Detector [80.7563981951707]
本稿では,LIGA-Stereoによるステレオ3次元検出器の学習について,LiDARに基づく検出モデルの高レベルな幾何認識表現の指導の下で提案する。
現状のステレオ検出器と比較して,車,歩行者,サイクリストの3次元検出性能は,それぞれ10.44%,5.69%,5.97%向上した。
論文 参考訳(メタデータ) (2021-08-18T17:24:40Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Stereo Frustums: A Siamese Pipeline for 3D Object Detection [20.443003989363916]
本稿では,3次元物体検出のための軽量ステレオフラストラムマッチングモジュールを提案する。
提案フレームワークは高性能な2D検出器とポイントクラウドセグメンテーションネットワークを利用して,自律走行車用3Dバウンディングボックスを補強する。
論文 参考訳(メタデータ) (2020-10-27T20:46:17Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。