論文の概要: MeshMAE: Masked Autoencoders for 3D Mesh Data Analysis
- arxiv url: http://arxiv.org/abs/2207.10228v1
- Date: Wed, 20 Jul 2022 23:33:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:49:17.000441
- Title: MeshMAE: Masked Autoencoders for 3D Mesh Data Analysis
- Title(参考訳): MeshMAE: 3Dメッシュデータ分析のためのマスク付きオートエンコーダ
- Authors: Yaqian Liang, Shanshan Zhao, Baosheng Yu, Jing Zhang, and Fazhi He
- Abstract要約: 最初にビジョン変換器を3Dメッシュデータ処理、すなわちメッシュ変換器に適用する。
MAEにインスパイアされた私たちは、Transformerベースの構造を持つ3Dメッシュデータの事前トレーニングが、下流の3Dメッシュ分析タスクにどのような効果があるかを調査した。
メッシュ解析タスクにおいて、最先端または同等のパフォーマンスが得られるMeshMAEというメソッドを名付けます。
- 参考スコア(独自算出の注目度): 26.33087100477139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, self-supervised pre-training has advanced Vision Transformers on
various tasks w.r.t. different data modalities, e.g., image and 3D point cloud
data. In this paper, we explore this learning paradigm for 3D mesh data
analysis based on Transformers. Since applying Transformer architectures to new
modalities is usually non-trivial, we first adapt Vision Transformer to 3D mesh
data processing, i.e., Mesh Transformer. In specific, we divide a mesh into
several non-overlapping local patches with each containing the same number of
faces and use the 3D position of each patch's center point to form positional
embeddings. Inspired by MAE, we explore how pre-training on 3D mesh data with
the Transformer-based structure benefits downstream 3D mesh analysis tasks. We
first randomly mask some patches of the mesh and feed the corrupted mesh into
Mesh Transformers. Then, through reconstructing the information of masked
patches, the network is capable of learning discriminative representations for
mesh data. Therefore, we name our method MeshMAE, which can yield
state-of-the-art or comparable performance on mesh analysis tasks, i.e.,
classification and segmentation. In addition, we also conduct comprehensive
ablation studies to show the effectiveness of key designs in our method.
- Abstract(参考訳): 近年、自己教師付き事前トレーニングでは、画像や3Dポイントのクラウドデータなど、さまざまなデータモダリティを扱うビジョントランスフォーマーが進歩している。
本稿では,トランスフォーマーに基づく3次元メッシュデータ解析のための学習パラダイムについて検討する。
新しいモダリティにトランスフォーマーアーキテクチャを適用するのは一般的ではないため、まずビジョントランスフォーマーを3dメッシュデータ処理、すなわちメッシュトランスフォーマーに適用する。
具体的には、メッシュを複数の重複しないローカルパッチに分割し、それぞれが同じ数の顔を持ち、各パッチの中心点の3d位置を使用して位置埋め込みを形成する。
MAEにインスパイアされた私たちは、Transformerベースの構造を持つ3Dメッシュデータの事前トレーニングが、下流の3Dメッシュ分析タスクにどのような効果があるかを調査した。
まず最初に、メッシュのパッチをランダムにマスクし、破損したメッシュをメッシュトランスフォーマーに供給します。
そして、マスキングパッチの情報を再構成することにより、メッシュデータの識別表現を学習することができる。
そこで我々は,メッシュ解析タスク,すなわち分類とセグメンテーションにおいて,最先端あるいは同等のパフォーマンスを得られるMeshMAE法を命名した。
また,本手法における鍵設計の有効性を示すため,包括的アブレーション研究も行った。
関連論文リスト
- MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers [76.70891862458384]
メッシュ抽出を生成問題として扱うモデルであるMeshAnythingを導入する。
任意の3D表現の3DアセットをAMに変換することで、MeshAnythingは様々な3Dアセット生産方法に統合することができる。
本手法は, 顔の数百倍少ないAMを生成し, 記憶, レンダリング, シミュレーション効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-06-14T16:30:25Z) - Mask-Attention-Free Transformer for 3D Instance Segmentation [68.29828726317723]
トランスフォーマーベースの手法は、マスクの注意が一般的に関与する3Dインスタンスセグメンテーションを支配している。
我々は、低リコール問題を克服し、位置対応を前提としたクロスアテンションを実現するために、一連の位置認識設計を開発する。
実験の結果,既存の作業よりも4倍早く収束し,ScanNetv2 3Dインスタンスセグメンテーションベンチマークに新たな技術状態を設定し,さまざまなデータセットで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-09-04T16:09:28Z) - MeT: A Graph Transformer for Semantic Segmentation of 3D Meshes [10.667492516216887]
本稿では3次元メッシュのセマンティックセグメンテーションのためのトランスフォーマーに基づく手法を提案する。
隣接行列のラプラシア固有ベクトルを用いて位置符号化を行う。
提案手法は,3次元メッシュのセマンティックセグメンテーションにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2023-07-03T15:45:14Z) - MPT: Mesh Pre-Training with Transformers for Human Pose and Mesh
Reconstruction [56.80384196339199]
Mesh Pre-Training(MPT)は、人間のポーズのためのMoCapデータや単一のイメージからのメッシュ再構築などの3Dメッシュデータを活用する、新たな事前トレーニングフレームワークである。
MPTにより、トランスフォーマーモデルは、実際の画像から人間のメッシュ再構築のゼロショット機能を持つことができる。
論文 参考訳(メタデータ) (2022-11-24T00:02:13Z) - Mask3D: Mask Transformer for 3D Semantic Instance Segmentation [89.41640045953378]
一般的なTransformerビルディングブロックを利用して、3Dポイントクラウドからインスタンスマスクを直接予測できることが示されています。
Transformerデコーダを使用して、インスタンスクエリは、複数のスケールでクラウド機能をポイントする反復的な参加者によって学習される。
Mask3Dは、新しい最先端ScanNetテスト(+6.2 mAP)、S3DIS 6-fold(+10.1 mAP)、LS3D(+11.2 mAP)、ScanNet200テスト(+12.4 mAP)を設定する。
論文 参考訳(メタデータ) (2022-10-06T17:55:09Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Mesh Graphormer [17.75480888764098]
グラフ畳み込み強化変換器であるMesh Graphormerを1枚の画像から3次元の人間のポーズとメッシュ再構成を行う。
論文 参考訳(メタデータ) (2021-04-01T06:16:36Z) - H3D: Benchmark on Semantic Segmentation of High-Resolution 3D Point
Clouds and textured Meshes from UAV LiDAR and Multi-View-Stereo [4.263987603222371]
本稿では,3つの方法でユニークな3次元データセットを提案する。
ヘシグハイム(ドイツ語: Hessigheim, H3D)は、ドイツの都市。
片手で3次元データ分析の分野での研究を促進するとともに、新しいアプローチの評価とランク付けを目的としている。
論文 参考訳(メタデータ) (2021-02-10T09:33:48Z) - Spherical Transformer: Adapting Spherical Signal to CNNs [53.18482213611481]
Spherical Transformerは、球状信号を標準CNNで直接処理できるベクトルに変換できます。
我々は,球面MNIST認識,3次元オブジェクト分類,全方向画像セマンティックセグメンテーションの課題に対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-01-11T12:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。