論文の概要: A Recipe for Geometry-Aware 3D Mesh Transformers
- arxiv url: http://arxiv.org/abs/2411.00164v1
- Date: Thu, 31 Oct 2024 19:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:40:25.985549
- Title: A Recipe for Geometry-Aware 3D Mesh Transformers
- Title(参考訳): 幾何学的3Dメッシュ変換器の試作
- Authors: Mohammad Farazi, Yalin Wang,
- Abstract要約: 本研究では, ノード数可変のパッチを収容するパッチレベルで, 特徴を埋め込む手法について検討する。
本研究は,1)一般的な3次元メッシュトランスフォーマにおける熱拡散による構造的および位置的埋め込みの重要性,2)学習の強化における測地的マスキングや機能的相互作用といった新しい要素の有効性,3)セグメント化と分類作業の課題における提案手法の優れた性能と効率性など,重要な知見を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 2.0992612407358293
- License:
- Abstract: Utilizing patch-based transformers for unstructured geometric data such as polygon meshes presents significant challenges, primarily due to the absence of a canonical ordering and variations in input sizes. Prior approaches to handling 3D meshes and point clouds have either relied on computationally intensive node-level tokens for large objects or resorted to resampling to standardize patch size. Moreover, these methods generally lack a geometry-aware, stable Structural Embedding (SE), often depending on simplistic absolute SEs such as 3D coordinates, which compromise isometry invariance essential for tasks like semantic segmentation. In our study, we meticulously examine the various components of a geometry-aware 3D mesh transformer, from tokenization to structural encoding, assessing the contribution of each. Initially, we introduce a spectral-preserving tokenization rooted in algebraic multigrid methods. Subsequently, we detail an approach for embedding features at the patch level, accommodating patches with variable node counts. Through comparative analyses against a baseline model employing simple point-wise Multi-Layer Perceptrons (MLP), our research highlights critical insights: 1) the importance of structural and positional embeddings facilitated by heat diffusion in general 3D mesh transformers; 2) the effectiveness of novel components such as geodesic masking and feature interaction via cross-attention in enhancing learning; and 3) the superior performance and efficiency of our proposed methods in challenging segmentation and classification tasks.
- Abstract(参考訳): ポリゴンメッシュなどの非構造化幾何データに対するパッチベースの変換器の利用は、典型的順序付けの欠如や入力サイズの変化など、大きな課題を生んでいる。
3Dメッシュとポイントクラウドを扱う以前のアプローチは、大きなオブジェクトに対する計算集約的なノードレベルのトークンに依存していたり、パッチサイズを標準化するために再サンプリングされたりしていた。
さらに、これらの手法は一般に幾何学的、安定な構造埋め込み (SE) を欠いているが、しばしば3D座標のような単純な絶対SEに依存する。
本研究では, トークン化から構造符号化に至るまで, 幾何対応の3Dメッシュトランスの様々な構成要素を慎重に検討し, それぞれの寄与を評価する。
まず、代数的多重グリッド法に根ざしたスペクトル保存トークン化を導入する。
その後、パッチレベルで機能を埋め込むためのアプローチを詳述し、可変ノード数でパッチを調整します。
MLPを用いたベースラインモデルの比較分析を通じて、本研究は重要な知見を浮き彫りにする。
1) 一般的な3次元メッシュトランスにおける熱拡散による構造と位置の埋め込みの重要性
2)ジオデシックマスキングやクロスアテンションによる特徴的相互作用などの新しい要素の学習促進効果
3) 課題分割と分類作業における提案手法の優れた性能と効率性について検討した。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - 3D Geometric Shape Assembly via Efficient Point Cloud Matching [59.241448711254485]
Proxy Match Transform (PMT) は、部品の配向面間の信頼性の高いマッチングを可能にする、高次特徴変換層である。
PMT を基盤として,幾何学的組立作業のための新しいフレームワーク Proxy Match TransformeR (PMTR) を導入する。
我々は,Breaking Badの大規模3次元幾何形状集合ベンチマークデータセットを用いてPMTRの評価を行った。
論文 参考訳(メタデータ) (2024-07-15T08:50:02Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z) - MeT: A Graph Transformer for Semantic Segmentation of 3D Meshes [10.667492516216887]
本稿では3次元メッシュのセマンティックセグメンテーションのためのトランスフォーマーに基づく手法を提案する。
隣接行列のラプラシア固有ベクトルを用いて位置符号化を行う。
提案手法は,3次元メッシュのセマンティックセグメンテーションにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2023-07-03T15:45:14Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Primal-Dual Mesh Convolutional Neural Networks [62.165239866312334]
本稿では,グラフ・ニューラル・ネットワークの文献からトライアングル・メッシュへ引き起こされた原始双対のフレームワークを提案する。
提案手法は,3次元メッシュのエッジと顔の両方を入力として特徴付け,動的に集約する。
メッシュ単純化の文献から得られたツールを用いて、我々のアプローチに関する理論的知見を提供する。
論文 参考訳(メタデータ) (2020-10-23T14:49:02Z) - SEG-MAT: 3D Shape Segmentation Using Medial Axis Transform [49.51977253452456]
入力形状の媒体軸変換(MAT)に基づく3次元形状分割の効率的な方法を提案する。
具体的には、MATに符号化された豊富な幾何学的および構造的情報により、3次元形状の異なる部分間の様々な種類の接合を識別することができる。
本手法は, セグメンテーション品質の点で最先端の手法より優れ, 桁違いに高速である。
論文 参考訳(メタデータ) (2020-10-22T07:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。