論文の概要: MVTN: Multi-View Transformation Network for 3D Shape Recognition
- arxiv url: http://arxiv.org/abs/2011.13244v3
- Date: Tue, 17 Aug 2021 15:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 08:29:21.855698
- Title: MVTN: Multi-View Transformation Network for 3D Shape Recognition
- Title(参考訳): MVTN:3次元形状認識のためのマルチビュー変換ネットワーク
- Authors: Abdullah Hamdi, Silvio Giancola, Bernard Ghanem
- Abstract要約: 本稿では,3次元形状認識のための最適視点を回帰するマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状分類のためのマルチビューネットワークと共に、エンドツーエンドで訓練することができる。
MVTNは3次元形状分類と3次元形状検索のタスクにおいて、余分な訓練監督を必要とせず、明らかな性能向上を示す。
- 参考スコア(独自算出の注目度): 80.34385402179852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view projection methods have demonstrated their ability to reach
state-of-the-art performance on 3D shape recognition. Those methods learn
different ways to aggregate information from multiple views. However, the
camera view-points for those views tend to be heuristically set and fixed for
all shapes. To circumvent the lack of dynamism of current multi-view methods,
we propose to learn those view-points. In particular, we introduce the
Multi-View Transformation Network (MVTN) that regresses optimal view-points for
3D shape recognition, building upon advances in differentiable rendering. As a
result, MVTN can be trained end-to-end along with any multi-view network for 3D
shape classification. We integrate MVTN in a novel adaptive multi-view pipeline
that can render either 3D meshes or point clouds. MVTN exhibits clear
performance gains in the tasks of 3D shape classification and 3D shape
retrieval without the need for extra training supervision. In these tasks, MVTN
achieves state-of-the-art performance on ModelNet40, ShapeNet Core55, and the
most recent and realistic ScanObjectNN dataset (up to 6% improvement).
Interestingly, we also show that MVTN can provide network robustness against
rotation and occlusion in the 3D domain. The code is available at
https://github.com/ajhamdi/MVTN .
- Abstract(参考訳): マルチビュー投影法は3次元形状認識における最先端性能を実現する能力を示した。
これらの手法は、複数のビューから情報を集約する異なる方法を学ぶ。
しかし、これらのビューのカメラの視点はヒューリスティックに設定され、あらゆる形状に固定される傾向がある。
マルチビュー手法のダイナミズムの欠如を回避するため,これらの視点を学ぶことを提案する。
特に,3次元形状認識のための最適な視点を回帰するマルチビュー変換ネットワーク (mvtn) を導入する。
その結果、MVTNは3次元形状分類のためのマルチビューネットワークと共に、エンドツーエンドで訓練することができる。
MVTNを新しい適応型マルチビューパイプラインに統合し、3Dメッシュまたはポイントクラウドのレンダリングを可能にします。
MVTNは3次元形状分類と3次元形状検索のタスクにおいて、余分な訓練監督を必要とせず、明確な性能向上を示す。
これらのタスクでは、MVTNはModelNet40、ShapeNet Core55、最新のScanObjectNNデータセット(最大6%の改善)で最先端のパフォーマンスを達成する。
興味深いことに,MVTNは3次元領域における回転や閉塞に対してネットワークの堅牢性を提供できる。
コードはhttps://github.com/ajhamdi/mvtnで入手できる。
関連論文リスト
- EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - Viewer-Centred Surface Completion for Unsupervised Domain Adaptation in
3D Object Detection [7.489722641968593]
3D検出器は、トレーニング対象のデータセットに過度に適合する傾向がある。これにより、検出器が1つのデータセットでトレーニングされ、別のデータセットでテストされると、精度が大幅に低下する。
我々は、新しいビューア中心のサーフェス補完ネットワーク(VCN)を設計し、これをSEE-VCN(SEE-VCN)というアプローチで解決する。
SEE-VCNにより、データセット全体にわたるオブジェクトの統一表現が得られ、ネットワークはスキャンパターンに過度に適合するのではなく、幾何学の学習に集中することができる。
論文 参考訳(メタデータ) (2022-09-14T04:22:20Z) - Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。
我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文 参考訳(メタデータ) (2022-04-05T12:59:43Z) - Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding [80.04281842702294]
本稿では,複数の視点から抽出した特徴の集合として,各3次元点を表す多視点クラウド(Voint Cloud)の概念を紹介する。
この新しい3次元Vointクラウド表現は、3Dポイントクラウド表現のコンパクト性と、マルチビュー表現の自然なビュー認識性を組み合わせたものである。
理論的に確立された機能を持つVointニューラルネットワーク(VointNet)をデプロイし,Voint空間の表現を学習する。
論文 参考訳(メタデータ) (2021-11-30T13:08:19Z) - Multi-view 3D Reconstruction with Transformer [34.756336770583154]
シーケンス・トゥ・シークエンス予測問題として,マルチビュー3D再構成を再構成する。
本稿では,3次元ボリューム変換器(VolT)という新しいフレームワークを提案する。
パラメータの少ないマルチビュー再構成で、最新鋭の精度を実現。
論文 参考訳(メタデータ) (2021-03-24T03:14:49Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z) - Virtual Multi-view Fusion for 3D Semantic Segmentation [11.259694096475766]
仮想ビューにより,従来のマルチビュー手法よりも2次元セマンティックセグメンテーションネットワークを効果的に学習できることを示す。
画素ごとの2次元予測を3次元面に集約すると,仮想多視点融合法により,より優れた3次元セマンティックセマンティックセマンティクス結果が得られる。
論文 参考訳(メタデータ) (2020-07-26T14:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。