論文の概要: SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval
- arxiv url: http://arxiv.org/abs/2307.10601v1
- Date: Thu, 20 Jul 2023 05:46:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 14:41:33.325672
- Title: SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval
- Title(参考訳): SCA-PVNet: 3Dオブジェクト検索のためのポイントクラウドとマルチビューの自己組織化に基づくアグリゲーション
- Authors: Dongyun Lin, Yi Cheng, Aiyuan Guo, Shangbo Mao, Yiqun Li
- Abstract要約: 大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
- 参考スコア(独自算出の注目度): 2.8135847710569206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address 3D object retrieval, substantial efforts have been made to
generate highly discriminative descriptors of 3D objects represented by a
single modality, e.g., voxels, point clouds or multi-view images. It is
promising to leverage the complementary information from multi-modality
representations of 3D objects to further improve retrieval performance.
However, multi-modality 3D object retrieval is rarely developed and analyzed on
large-scale datasets. In this paper, we propose self-and-cross attention based
aggregation of point cloud and multi-view images (SCA-PVNet) for 3D object
retrieval. With deep features extracted from point clouds and multi-view
images, we design two types of feature aggregation modules, namely the
In-Modality Aggregation Module (IMAM) and the Cross-Modality Aggregation Module
(CMAM), for effective feature fusion. IMAM leverages a self-attention mechanism
to aggregate multi-view features while CMAM exploits a cross-attention
mechanism to interact point cloud features with multi-view features. The final
descriptor of a 3D object for object retrieval can be obtained via
concatenating the aggregated features from both modules. Extensive experiments
and analysis are conducted on three datasets, ranging from small to large
scale, to show the superiority of the proposed SCA-PVNet over the
state-of-the-art methods.
- Abstract(参考訳): 3dオブジェクトの検索に対処するため、ボクセル、ポイントクラウド、マルチビュー画像など、単一のモダリティで表現された3dオブジェクトの高度に識別可能な記述子を生成するための努力がなされている。
3dオブジェクトのマルチモダリティ表現からの補完情報を活用し、検索性能をさらに向上させることを約束する。
しかし,大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点雲と多視点画像(SCA-PVNet)の自己組織化に基づくアグリゲーションを提案する。
点群と多視点画像から深い特徴を抽出し,機能融合を効果的に行うために,インモダリティアグリゲーションモジュール (imam) とクロスモダリティアグリゲーションモジュール (cmam) という2種類の機能アグリゲーションモジュールを設計した。
IMAMはセルフアテンションメカニズムを利用してマルチビュー機能を集約し、CMAMはクロスアテンションメカニズムを利用してポイントクラウド機能をマルチビュー機能と相互作用する。
オブジェクト検索のための3Dオブジェクトの最終記述子は、両方のモジュールから集約された特徴を連結することで得られる。
提案手法よりもSCA-PVNetの方が優れていることを示すため,小規模から大規模までの3つのデータセットを用いて実験と解析を行った。
関連論文リスト
- PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。
私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文 参考訳(メタデータ) (2024-08-12T06:46:05Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images
for Articulated Objects [24.737865259695006]
そこで本研究では, SM$3$と呼ばれる自己教師型相互作用認識手法を提案する。
取得した2次元画像から3次元の幾何学とテクスチャを構築することで、SM$3$は可動部と関節パラメータの統合最適化を実現する。
SM$3$は、様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオにおける適応性は、徹底的に検証されている。
論文 参考訳(メタデータ) (2024-01-17T11:15:09Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object
Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。
M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文 参考訳(メタデータ) (2021-04-24T06:48:23Z) - 3D-MAN: 3D Multi-frame Attention Network for Object Detection [22.291051951077485]
3D-MANは、複数の視点から効果的に機能を集約する3Dマルチフレームアテンションネットワークです。
3D-MANは, 単フレームおよび複数フレームの手法と比較して, 最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-30T03:44:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。