論文の概要: Priors are Powerful: Improving a Transformer for Multi-camera 3D
Detection with 2D Priors
- arxiv url: http://arxiv.org/abs/2301.13592v1
- Date: Tue, 31 Jan 2023 12:45:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 16:39:16.853947
- Title: Priors are Powerful: Improving a Transformer for Multi-camera 3D
Detection with 2D Priors
- Title(参考訳): プリエントは強力:2dプリエントによるマルチカメラ3d検出用トランスフォーマーの改良
- Authors: Di Feng, Francesco Ferroni
- Abstract要約: 本稿では,3次元検出ネットワークのトランスフォーマー部に先立って,画像のバックボーンからの予測を2次元タスクに高最適化する手法を提案する。
モデルの収束を早めるだけでなく,ベースラインアプローチを平均精度で最大12%改善することを示す。
- 参考スコア(独自算出の注目度): 4.724877043908966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfomer-based approaches advance the recent development of multi-camera 3D
detection both in academia and industry. In a vanilla transformer architecture,
queries are randomly initialised and optimised for the whole dataset, without
considering the differences among input frames. In this work, we propose to
leverage the predictions from an image backbone, which is often highly
optimised for 2D tasks, as priors to the transformer part of a 3D detection
network. The method works by (1). augmenting image feature maps with 2D priors,
(2). sampling query locations via ray-casting along 2D box centroids, as well
as (3). initialising query features with object-level image features.
Experimental results shows that 2D priors not only help the model converge
faster, but also largely improve the baseline approach by up to 12% in terms of
average precision.
- Abstract(参考訳): トランスフォマーに基づくアプローチは、近年の学界と産業の両方におけるマルチカメラ3d検出の発展を前進させる。
バニラトランスアーキテクチャでは、クエリはランダムに初期化され、入力フレーム間の差異を考慮せずにデータセット全体に最適化される。
本研究では,3次元検出ネットワークのトランスフォーマー部に先立って,2次元タスクに高最適化される画像バックボーンからの予測を活用することを提案する。
その方法は (1) で動く.
2次元プリエントによる画像特徴マップの拡張 (2)
2dボックスセンタロイドに沿ったレイキャストによるクエリ位置のサンプリング(3)。
オブジェクトレベルのイメージ機能によるクエリ機能の初期化。
実験の結果、2dプリエントはモデルがより速く収束するのに役立つだけでなく、ベースラインアプローチを平均精度で最大12%改善できることがわかった。
関連論文リスト
- 3DGS-CD: 3D Gaussian Splatting-based Change Detection for Physical Object Rearrangement [2.2122801766964795]
3DGS-CDは3Dシーンにおける物体の物理的配置を検出する最初の3Dガウス散乱(3DGS)に基づく手法である。
提案手法では,異なる時間に撮影された2つの不整合画像を比較して3次元オブジェクトレベルの変化を推定する。
本手法は,18秒以内のスパース・ポスト・チェンジ画像を用いて,1枚の新しい画像のみを用いて,散在する環境の変化を検出できる。
論文 参考訳(メタデータ) (2024-11-06T07:08:41Z) - Divide and Conquer: Improving Multi-Camera 3D Perception with 2D Semantic-Depth Priors and Input-Dependent Queries [30.17281824826716]
既存の手法は、しばしば意味と深さの手がかりの相乗効果を無視し、分類と位置推定誤差をもたらす。
本稿では,SemanticsとDepthを先行として活用した入力対応トランスフォーマーフレームワークを提案する。
我々のアプローチは、意味と深さの事前を明示的にモデル化するS-Dを用いることで、オブジェクトの分類と位置推定の学習プロセスを阻害する。
論文 参考訳(メタデータ) (2024-08-13T13:51:34Z) - Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。