論文の概要: Transformer-based stereo-aware 3D object detection from binocular images
- arxiv url: http://arxiv.org/abs/2304.11906v3
- Date: Sat, 6 Jan 2024 12:36:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 23:58:47.528805
- Title: Transformer-based stereo-aware 3D object detection from binocular images
- Title(参考訳): トランスフォーマーを用いた両眼画像からの立体物体検出
- Authors: Hanqing Sun, Yanwei Pang, Jiale Cao, Jin Xie, Xuelong Li
- Abstract要約: 両眼3次元物体検出におけるトランスフォーマーのモデルについて検討する。
この目的を達成するため,トランスフォーマーを用いた3Dオブジェクト検出器TS3Dを提案する。
提案したTS3Dは、KITTIテストセット上で41.29%のモードレートカー検出精度を実現し、各両眼画像対から物体を検出するのに88msを要した。
- 参考スコア(独自算出の注目度): 88.8899428219077
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformers have shown promising progress in various visual object detection
tasks, including monocular 2D/3D detection and surround-view 3D detection. More
importantly, the attention mechanism in the Transformer model and the image
correspondence in binocular stereo are both similarity-based. However, directly
applying existing Transformer-based detectors to binocular stereo 3D object
detection leads to slow convergence and significant precision drops. We argue
that a key cause of this defect is that existing Transformers ignore the
stereo-specific image correspondence information. In this paper, we explore the
model design of Transformers in binocular 3D object detection, focusing
particularly on extracting and encoding the task-specific image correspondence
information. To achieve this goal, we present TS3D, a Transformer-based
Stereo-aware 3D object detector. In the TS3D, a Disparity-Aware Positional
Encoding (DAPE) module is proposed to embed the image correspondence
information into stereo features. The correspondence is encoded as normalized
sub-pixel-level disparity and is used in conjunction with sinusoidal 2D
positional encoding to provide the 3D location information of the scene. To
extract enriched multi-scale stereo features, we propose a Stereo Preserving
Feature Pyramid Network (SPFPN). The SPFPN is designed to preserve the
correspondence information while fusing intra-scale and aggregating cross-scale
stereo features. Our proposed TS3D achieves a 41.29% Moderate Car detection
average precision on the KITTI test set and takes 88 ms to detect objects from
each binocular image pair. It is competitive with advanced counterparts in
terms of both precision and inference speed.
- Abstract(参考訳): トランスフォーマーは、モノクロ2D/3D検出やサラウンドビュー3D検出など、様々な視覚オブジェクト検出タスクにおいて有望な進歩を示している。
さらに重要なことに、トランスフォーマーモデルの注意機構と双眼鏡ステレオの画像対応はどちらも類似性に基づくものである。
しかし、既存のトランスフォーマーベースの検出器を双眼ステレオ3d物体検出に直接適用すると、収束が遅くなり、精度が低下する。
この欠陥の主な原因は、既存のトランスフォーマーがステレオ特有の画像対応情報を無視していることである。
本稿では,両眼3次元物体検出におけるトランスフォーマーのモデル設計について検討し,特にタスク固有画像対応情報の抽出と符号化に着目した。
この目的を達成するために,トランスフォーマーをベースとしたステレオ3Dオブジェクト検出器TS3Dを提案する。
TS3Dでは、画像対応情報をステレオ特徴に埋め込むために、DAPE(Disparity-Aware Positional Encoding)モジュールを提案する。
対応を正規化サブピクセルレベルの不一致として符号化し、正弦波2D位置符号化と併用してシーンの3D位置情報を提供する。
拡張されたマルチスケールステレオ特徴を抽出するために,Stereo Preserving Feature Pyramid Network (SPFPN)を提案する。
spfpnは、クロススケールステレオの特徴を取り入れながら、対応情報を保存できるように設計されている。
提案するts3dは,kittiテストセットにおける中程度の車検出平均精度を41.29%達成し,各双眼鏡画像ペアから物体を検出するのに88msを要した。
精度と推論速度の両面で、高度な競合相手と競合する。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving [14.582107328849473]
ステレオビューにおける画像-画像生成のギャップは、画像-画像-LiDAR生成のギャップよりもはるかに小さい。
そこで我々はPseudo-Stereo 3D検出フレームワークを3つの新しい仮想ビュー生成手法で提案する。
我々のフレームワークは、KITTI-3Dベンチマークで公表されたモノクラー3D検出器の中で、車、歩行者、サイクリストで1位にランクインしている。
論文 参考訳(メタデータ) (2022-03-04T03:00:34Z) - LIGA-Stereo: Learning LiDAR Geometry Aware Representations for
Stereo-based 3D Detector [80.7563981951707]
本稿では,LIGA-Stereoによるステレオ3次元検出器の学習について,LiDARに基づく検出モデルの高レベルな幾何認識表現の指導の下で提案する。
現状のステレオ検出器と比較して,車,歩行者,サイクリストの3次元検出性能は,それぞれ10.44%,5.69%,5.97%向上した。
論文 参考訳(メタデータ) (2021-08-18T17:24:40Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Stereo Object Matching Network [78.35697025102334]
本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。
コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
論文 参考訳(メタデータ) (2021-03-23T12:54:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。