論文の概要: MANet: Multimodal Attention Network based Point- View fusion for 3D
Shape Recognition
- arxiv url: http://arxiv.org/abs/2002.12573v1
- Date: Fri, 28 Feb 2020 07:00:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 02:33:05.826712
- Title: MANet: Multimodal Attention Network based Point- View fusion for 3D
Shape Recognition
- Title(参考訳): MANet:3次元形状認識のためのマルチモーダルアテンションネットワークに基づくポイントビュー融合
- Authors: Yaxin Zhao, Jichao Jiao and Tangkun Zhang
- Abstract要約: 本稿では3次元形状認識のためのマルチモーダルアテンション機構に基づく融合ネットワークを提案する。
マルチビューデータの制限を考慮すると,グローバルなポイントクラウド機能を用いてマルチビュー機能をフィルタリングするソフトアテンション方式を導入する。
より具体的には、各マルチビュー画像の全体形状認識への寄与をマイニングすることにより、拡張されたマルチビュー特徴を得る。
- 参考スコア(独自算出の注目度): 0.5371337604556311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D shape recognition has attracted more and more attention as a task of 3D
vision research. The proliferation of 3D data encourages various deep learning
methods based on 3D data. Now there have been many deep learning models based
on point-cloud data or multi-view data alone. However, in the era of big data,
integrating data of two different modals to obtain a unified 3D shape
descriptor is bound to improve the recognition accuracy. Therefore, this paper
proposes a fusion network based on multimodal attention mechanism for 3D shape
recognition. Considering the limitations of multi-view data, we introduce a
soft attention scheme, which can use the global point-cloud features to filter
the multi-view features, and then realize the effective fusion of the two
features. More specifically, we obtain the enhanced multi-view features by
mining the contribution of each multi-view image to the overall shape
recognition, and then fuse the point-cloud features and the enhanced multi-view
features to obtain a more discriminative 3D shape descriptor. We have performed
relevant experiments on the ModelNet40 dataset, and experimental results verify
the effectiveness of our method.
- Abstract(参考訳): 3次元視覚研究の課題として3次元形状認識が注目されている。
3Dデータの拡散は、3Dデータに基づく様々なディープラーニング手法を促進する。
現在、ポイントクラウドデータまたはマルチビューデータのみに基づく多くのディープラーニングモデルが存在する。
しかし、ビッグデータ時代には、2つの異なるモーダルのデータを統合することで、統一された3d形状記述子を得ることができ、認識精度が向上する。
そこで本稿では,3次元形状認識のためのマルチモーダル注意機構に基づく融合ネットワークを提案する。
マルチビューデータの制限を考慮して,グローバルなポイントクラウド機能を用いてマルチビュー特徴をフィルタリングし,その2つの特徴の効果的融合を実現するソフトアテンション方式を導入する。
具体的には、各マルチビュー画像の全体形状認識への寄与をマイニングし、さらに、ポイントクラウド特徴と拡張マルチビュー特徴を融合させて、より識別性の高い3次元形状記述子を得る。
我々は,ModelNet40データセット上で関連する実験を行い,本手法の有効性を検証した。
関連論文リスト
- Deep Models for Multi-View 3D Object Recognition: A Review [16.500711021549947]
これまで,オブジェクト認識のための多視点3D表現は,最先端性能を実現する上で最も有望な結果であった。
本稿では,3次元分類・検索タスクにおける多視点オブジェクト認識手法の最近の進歩を包括的に紹介する。
論文 参考訳(メタデータ) (2024-04-23T16:54:31Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D
Point Cloud Understanding [4.220064723125481]
マルチビュー2D情報は、3Dオブジェクトに対して優れた自己教師付き信号を提供することができる。
MM-Pointは、モーダル内およびモーダル間類似性目的によって駆動される。
合成データセットModelNet40で92.4%、実世界のデータセットScanObjectNNで87.8%のピーク精度を達成した。
論文 参考訳(メタデータ) (2024-02-15T15:10:17Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。