論文の概要: Transformer-based stereo-aware 3D object detection from binocular images
- arxiv url: http://arxiv.org/abs/2304.11906v1
- Date: Mon, 24 Apr 2023 08:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 15:38:53.032213
- Title: Transformer-based stereo-aware 3D object detection from binocular images
- Title(参考訳): トランスフォーマーを用いた両眼画像からの立体物体検出
- Authors: Hanqing Sun, Yanwei Pang, Jiale Cao, Jin Xie, Xuelong Li
- Abstract要約: 視覚変換器は、モノクロ2D/3D検出やサラウンドビュー3D検出など、様々な物体検出タスクにおいて有望な進歩を示している。
しかし、本質的で古典的なステレオ3Dオブジェクト検出で使用される場合、それらのサラウンドビュー変換器を直接採用すると、収束が遅く、精度が大幅に低下する。
この欠陥の原因の1つは、サラウンドビュー変換器がステレオ固有画像対応情報を考慮していないことである。
- 参考スコア(独自算出の注目度): 110.24329249066787
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision Transformers have shown promising progress in various object detection
tasks, including monocular 2D/3D detection and surround-view 3D detection.
However, when used in essential and classic stereo 3D object detection,
directly adopting those surround-view Transformers leads to slow convergence
and significant precision drops. We argue that one of the causes of this defect
is that the surround-view Transformers do not consider the stereo-specific
image correspondence information. In a surround-view system, the overlapping
areas are small, and thus correspondence is not a primary issue. In this paper,
we explore the model design of vision Transformers in stereo 3D object
detection, focusing particularly on extracting and encoding the task-specific
image correspondence information. To achieve this goal, we present TS3D, a
Transformer-based Stereo-aware 3D object detector. In the TS3D, a
Disparity-Aware Positional Encoding (DAPE) model is proposed to embed the image
correspondence information into stereo features. The correspondence is encoded
as normalized disparity and is used in conjunction with sinusoidal 2D
positional encoding to provide the location information of the 3D scene. To
extract enriched multi-scale stereo features, we propose a Stereo Reserving
Feature Pyramid Network (SRFPN). The SRFPN is designed to reserve the
correspondence information while fusing intra-scale and aggregating cross-scale
stereo features. Our proposed TS3D achieves a 41.29% Moderate Car detection
average precision on the KITTI test set and takes 88 ms to detect objects from
each binocular image pair. It is competitive with advanced counterparts in
terms of both precision and inference speed.
- Abstract(参考訳): 視覚変換器は、モノクロ2D/3D検出やサラウンドビュー3D検出など、様々な物体検出タスクにおいて有望な進歩を示している。
しかし、本質的および古典的ステレオ3dオブジェクト検出で使用される場合、これらのサラウンドビュートランスフォーマーを直接採用すると、収束が遅くなり、精度が大幅に低下する。
この欠陥の原因の1つは、サラウンドビュートランスフォーマーがステレオ特有の画像対応情報を考慮していないことである。
サラウンドビューシステムでは、重なり合う領域は小さいため、対応性は主要な問題ではない。
本稿では,ステレオ3次元物体検出における視覚トランスフォーマーのモデル設計について検討し,タスク固有画像対応情報の抽出と符号化に着目した。
この目的を達成するために,トランスフォーマーをベースとしたステレオ3Dオブジェクト検出器TS3Dを提案する。
TS3Dでは、画像対応情報をステレオ特徴に埋め込むために、DAPE(Disparity-Aware Positional Encoding)モデルを提案する。
対応を正規化不一致として符号化し、正弦波2D位置符号化と併用して、3Dシーンの位置情報を提供する。
拡張された多スケールステレオ特徴を抽出するために,ステレオ保存機能ピラミッドネットワーク (srfpn) を提案する。
SRFPNは、インタースケールとアグリゲートするクロススケールステレオ特徴を融合させながら、対応情報を予約するように設計されている。
提案するts3dは,kittiテストセットにおける中程度の車検出平均精度を41.29%達成し,各双眼鏡画像ペアから物体を検出するのに88msを要した。
精度と推論速度の両面で、高度な競合相手と競合する。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving [14.582107328849473]
ステレオビューにおける画像-画像生成のギャップは、画像-画像-LiDAR生成のギャップよりもはるかに小さい。
そこで我々はPseudo-Stereo 3D検出フレームワークを3つの新しい仮想ビュー生成手法で提案する。
我々のフレームワークは、KITTI-3Dベンチマークで公表されたモノクラー3D検出器の中で、車、歩行者、サイクリストで1位にランクインしている。
論文 参考訳(メタデータ) (2022-03-04T03:00:34Z) - LIGA-Stereo: Learning LiDAR Geometry Aware Representations for
Stereo-based 3D Detector [80.7563981951707]
本稿では,LIGA-Stereoによるステレオ3次元検出器の学習について,LiDARに基づく検出モデルの高レベルな幾何認識表現の指導の下で提案する。
現状のステレオ検出器と比較して,車,歩行者,サイクリストの3次元検出性能は,それぞれ10.44%,5.69%,5.97%向上した。
論文 参考訳(メタデータ) (2021-08-18T17:24:40Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Stereo Object Matching Network [78.35697025102334]
本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。
コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
論文 参考訳(メタデータ) (2021-03-23T12:54:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。