論文の概要: Priors are Powerful: Improving a Transformer for Multi-camera 3D
Detection with 2D Priors
- arxiv url: http://arxiv.org/abs/2301.13592v1
- Date: Tue, 31 Jan 2023 12:45:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 16:39:16.853947
- Title: Priors are Powerful: Improving a Transformer for Multi-camera 3D
Detection with 2D Priors
- Title(参考訳): プリエントは強力:2dプリエントによるマルチカメラ3d検出用トランスフォーマーの改良
- Authors: Di Feng, Francesco Ferroni
- Abstract要約: 本稿では,3次元検出ネットワークのトランスフォーマー部に先立って,画像のバックボーンからの予測を2次元タスクに高最適化する手法を提案する。
モデルの収束を早めるだけでなく,ベースラインアプローチを平均精度で最大12%改善することを示す。
- 参考スコア(独自算出の注目度): 4.724877043908966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfomer-based approaches advance the recent development of multi-camera 3D
detection both in academia and industry. In a vanilla transformer architecture,
queries are randomly initialised and optimised for the whole dataset, without
considering the differences among input frames. In this work, we propose to
leverage the predictions from an image backbone, which is often highly
optimised for 2D tasks, as priors to the transformer part of a 3D detection
network. The method works by (1). augmenting image feature maps with 2D priors,
(2). sampling query locations via ray-casting along 2D box centroids, as well
as (3). initialising query features with object-level image features.
Experimental results shows that 2D priors not only help the model converge
faster, but also largely improve the baseline approach by up to 12% in terms of
average precision.
- Abstract(参考訳): トランスフォマーに基づくアプローチは、近年の学界と産業の両方におけるマルチカメラ3d検出の発展を前進させる。
バニラトランスアーキテクチャでは、クエリはランダムに初期化され、入力フレーム間の差異を考慮せずにデータセット全体に最適化される。
本研究では,3次元検出ネットワークのトランスフォーマー部に先立って,2次元タスクに高最適化される画像バックボーンからの予測を活用することを提案する。
その方法は (1) で動く.
2次元プリエントによる画像特徴マップの拡張 (2)
2dボックスセンタロイドに沿ったレイキャストによるクエリ位置のサンプリング(3)。
オブジェクトレベルのイメージ機能によるクエリ機能の初期化。
実験の結果、2dプリエントはモデルがより速く収束するのに役立つだけでなく、ベースラインアプローチを平均精度で最大12%改善できることがわかった。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - GOOD: General Optimization-based Fusion for 3D Object Detection via
LiDAR-Camera Object Candidates [10.534984939225014]
3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。
Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。
nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
論文 参考訳(メタデータ) (2023-03-17T07:05:04Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。