Fugu-MT 論文翻訳(概要): SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and Multi-View for 3D Object Retrieval

論文の概要: SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and Multi-View for 3D Object Retrieval

arxiv url: http://arxiv.org/abs/2307.10601v1
Date: Thu, 20 Jul 2023 05:46:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-21 14:41:33.325672
Title: SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and Multi-View for 3D Object Retrieval
Title（参考訳）: SCA-PVNet: 3Dオブジェクト検索のためのポイントクラウドとマルチビューの自己組織化に基づくアグリゲーション
Authors: Dongyun Lin, Yi Cheng, Aiyuan Guo, Shangbo Mao, Yiqun Li
Abstract要約: 大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
参考スコア（独自算出の注目度）: 2.8135847710569206
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To address 3D object retrieval, substantial efforts have been made to generate highly discriminative descriptors of 3D objects represented by a single modality, e.g., voxels, point clouds or multi-view images. It is promising to leverage the complementary information from multi-modality representations of 3D objects to further improve retrieval performance. However, multi-modality 3D object retrieval is rarely developed and analyzed on large-scale datasets. In this paper, we propose self-and-cross attention based aggregation of point cloud and multi-view images (SCA-PVNet) for 3D object retrieval. With deep features extracted from point clouds and multi-view images, we design two types of feature aggregation modules, namely the In-Modality Aggregation Module (IMAM) and the Cross-Modality Aggregation Module (CMAM), for effective feature fusion. IMAM leverages a self-attention mechanism to aggregate multi-view features while CMAM exploits a cross-attention mechanism to interact point cloud features with multi-view features. The final descriptor of a 3D object for object retrieval can be obtained via concatenating the aggregated features from both modules. Extensive experiments and analysis are conducted on three datasets, ranging from small to large scale, to show the superiority of the proposed SCA-PVNet over the state-of-the-art methods.
Abstract（参考訳）: 3dオブジェクトの検索に対処するため、ボクセル、ポイントクラウド、マルチビュー画像など、単一のモダリティで表現された3dオブジェクトの高度に識別可能な記述子を生成するための努力がなされている。 3dオブジェクトのマルチモダリティ表現からの補完情報を活用し、検索性能をさらに向上させることを約束する。しかし,大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。本稿では,3次元オブジェクト検索のための点雲と多視点画像(SCA-PVNet)の自己組織化に基づくアグリゲーションを提案する。点群と多視点画像から深い特徴を抽出し,機能融合を効果的に行うために,インモダリティアグリゲーションモジュール (imam) とクロスモダリティアグリゲーションモジュール (cmam) という2種類の機能アグリゲーションモジュールを設計した。 IMAMはセルフアテンションメカニズムを利用してマルチビュー機能を集約し、CMAMはクロスアテンションメカニズムを利用してポイントクラウド機能をマルチビュー機能と相互作用する。オブジェクト検索のための3Dオブジェクトの最終記述子は、両方のモジュールから集約された特徴を連結することで得られる。提案手法よりもSCA-PVNetの方が優れていることを示すため,小規模から大規模までの3つのデータセットを用いて実験と解析を行った。

関連論文リスト

PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。 PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。 PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文参考訳（メタデータ） (2024-08-26T19:43:01Z)
MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文参考訳（メタデータ） (2024-08-12T06:46:05Z)
PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文参考訳（メタデータ） (2024-03-14T09:28:12Z)
SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images for Articulated Objects [24.737865259695006]
そこで本研究では, SM$3$と呼ばれる自己教師型相互作用認識手法を提案する。取得した2次元画像から3次元の幾何学とテクスチャを構築することで、SM$3$は可動部と関節パラメータの統合最適化を実現する。 SM$3$は、様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオにおける適応性は、徹底的に検証されている。
論文参考訳（メタデータ） (2024-01-17T11:15:09Z)
Multi-Projection Fusion and Refinement Network for Salient Object Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。 MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。 2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2022-12-23T14:50:40Z)
CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。 3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文参考訳（メタデータ） (2022-09-13T05:26:09Z)
A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文参考訳（メタデータ） (2022-08-22T03:38:01Z)
M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。 M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文参考訳（メタデータ） (2021-04-24T06:48:23Z)
3D-MAN: 3D Multi-frame Attention Network for Object Detection [22.291051951077485]
3D-MANは、複数の視点から効果的に機能を集約する3Dマルチフレームアテンションネットワークです。 3D-MANは, 単フレームおよび複数フレームの手法と比較して, 最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2021-03-30T03:44:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。