論文の概要: Pixel-Aligned Recurrent Queries for Multi-View 3D Object Detection
- arxiv url: http://arxiv.org/abs/2310.01401v1
- Date: Mon, 2 Oct 2023 17:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 20:19:56.291428
- Title: Pixel-Aligned Recurrent Queries for Multi-View 3D Object Detection
- Title(参考訳): マルチビュー3次元物体検出のためのピクセルアラインリカレントクエリ
- Authors: Yiming Xie, Huaizu Jiang, Georgia Gkioxari, Julian Straub
- Abstract要約: PARQはマルチビューの3Dオブジェクト検出器で、トランスフォーマーとピクセルアラインなリカレントクエリを備えている。
再トレーニングせずに追加のインプットビューを利用することができ、反復回数を変更することで推論計算を適用することができる。
- 参考スコア(独自算出の注目度): 16.677107631803327
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present PARQ - a multi-view 3D object detector with transformer and
pixel-aligned recurrent queries. Unlike previous works that use learnable
features or only encode 3D point positions as queries in the decoder, PARQ
leverages appearance-enhanced queries initialized from reference points in 3D
space and updates their 3D location with recurrent cross-attention operations.
Incorporating pixel-aligned features and cross attention enables the model to
encode the necessary 3D-to-2D correspondences and capture global contextual
information of the input images. PARQ outperforms prior best methods on the
ScanNet and ARKitScenes datasets, learns and detects faster, is more robust to
distribution shifts in reference points, can leverage additional input views
without retraining, and can adapt inference compute by changing the number of
recurrent iterations.
- Abstract(参考訳): 本稿では,マルチビュー3Dオブジェクト検出器であるPARQについて述べる。
学習可能な機能やデコーダ内のクエリとして3Dポイント位置のみをエンコードする以前の作業とは異なり、PARQは3D空間の参照ポイントから初期化された外観に強化されたクエリを活用して、3D位置を更新する。
画素アライメント機能とクロスアテンションを組み込むことで、必要な3Dから2D対応を符号化し、入力画像のグローバルなコンテキスト情報をキャプチャすることができる。
PARQは、ScanNetとARKitScenesデータセットの前のベストメソッドよりも優れており、学習と検出が速く、参照ポイントの分散シフトに対して堅牢であり、再トレーニングなしで追加のインプットビューを活用することができ、反復回数を変更して推論計算を適用することができる。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - CAPE: Camera View Position Embedding for Multi-View 3D Object Detection [100.02565745233247]
現在のクエリベースの手法は、画像と3次元空間の幾何学的対応を学習するために、グローバルな3D位置埋め込みに依存している。
本稿では,CAPE と呼ばれる,CAmera view position Embedding に基づく新しい手法を提案する。
CAPEはnuScenesデータセット上の全てのLiDARフリーメソッドの中で最先端のパフォーマンス(61.0% NDSと52.5% mAP)を達成する。
論文 参考訳(メタデータ) (2023-03-17T18:59:54Z) - 3DPPE: 3D Point Positional Encoding for Multi-Camera 3D Object Detection
Transformers [35.14784758217257]
本稿では,3D検出トランスフォーマーデコーダに3Dポイント位置符号化,3DPPEを導入する。
近似にもかかわらず、3DPPEは競合するnuScenesデータセット上で46.0 mAPと51.4 NDSを達成した。
論文 参考訳(メタデータ) (2022-11-27T03:36:32Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - SRCN3D: Sparse R-CNN 3D for Compact Convolutional Multi-View 3D Object
Detection and Tracking [12.285423418301683]
本稿では,スパースクエリ,ボックスワイズサンプリングによるスパースアテンション,スパース予測を組み込んだ新しい2段フルスパース検出器であるスパースR-CNN3Dを提案する。
nuScenesデータセットの実験では、SRCN3Dは3Dオブジェクト検出とマルチオブジェクト追跡の両方で競合性能を達成している。
論文 参考訳(メタデータ) (2022-06-29T07:58:39Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。