論文の概要: MeT: A Graph Transformer for Semantic Segmentation of 3D Meshes
- arxiv url: http://arxiv.org/abs/2307.01115v1
- Date: Mon, 3 Jul 2023 15:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 12:31:09.362056
- Title: MeT: A Graph Transformer for Semantic Segmentation of 3D Meshes
- Title(参考訳): MeT:3次元メッシュのセマンティックセグメンテーションのためのグラフ変換器
- Authors: Giuseppe Vecchio, Luca Prezzavento, Carmelo Pino, Francesco Rundo,
Simone Palazzo, Concetto Spampinato
- Abstract要約: 本稿では3次元メッシュのセマンティックセグメンテーションのためのトランスフォーマーに基づく手法を提案する。
隣接行列のラプラシア固有ベクトルを用いて位置符号化を行う。
提案手法は,3次元メッシュのセマンティックセグメンテーションにおける最先端の性能を示す。
- 参考スコア(独自算出の注目度): 10.667492516216887
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Polygonal meshes have become the standard for discretely approximating 3D
shapes, thanks to their efficiency and high flexibility in capturing
non-uniform shapes. This non-uniformity, however, leads to irregularity in the
mesh structure, making tasks like segmentation of 3D meshes particularly
challenging. Semantic segmentation of 3D mesh has been typically addressed
through CNN-based approaches, leading to good accuracy. Recently, transformers
have gained enough momentum both in NLP and computer vision fields, achieving
performance at least on par with CNN models, supporting the long-sought
architecture universalism. Following this trend, we propose a transformer-based
method for semantic segmentation of 3D mesh motivated by a better modeling of
the graph structure of meshes, by means of global attention mechanisms. In
order to address the limitations of standard transformer architectures in
modeling relative positions of non-sequential data, as in the case of 3D
meshes, as well as in capturing the local context, we perform positional
encoding by means the Laplacian eigenvectors of the adjacency matrix, replacing
the traditional sinusoidal positional encodings, and by introducing
clustering-based features into the self-attention and cross-attention
operators. Experimental results, carried out on three sets of the Shape COSEG
Dataset, on the human segmentation dataset proposed in Maron et al., 2017 and
on the ShapeNet benchmark, show how the proposed approach yields
state-of-the-art performance on semantic segmentation of 3D meshes.
- Abstract(参考訳): 多角形メッシュは、その効率性と非一様形状を捉える柔軟性により、離散的に3d形状を近似する標準となっている。
しかし、この不均一性はメッシュ構造に不規則をもたらし、3Dメッシュのセグメンテーションのようなタスクを特に困難にする。
3dメッシュのセマンティクスセグメンテーションは一般的にcnnベースのアプローチで対処されており、精度が向上している。
近年、トランスフォーマーはnlpとコンピュータビジョンの両方で十分な勢いを得ており、cnnモデルと同等の性能を達成し、長きにわたるアーキテクチャの普遍性を支持している。
この傾向に従い,グローバルアテンション機構を用いて,メッシュのグラフ構造をよりよくモデル化することによる3次元メッシュの意味セグメンテーション手法を提案する。
3次元メッシュの場合と同様に、非逐次データの相対位置をモデル化する際の標準トランスフォーマーアーキテクチャの限界に対処するため、隣接行列のラプラシア固有ベクトルを用いて位置エンコーディングを行い、従来の正弦波位置エンコーディングを置き換えるとともに、クラスタリングに基づく特徴を自己注意・横断的演算子に導入する。
2017年にmaron et al.で提案されたヒトセグメンテーションデータセットとshapenetベンチマークに基づいて、3セットの形状cosegデータセットを実験した結果,提案手法が3dメッシュの意味セグメンテーションにおける最先端のパフォーマンスに与える影響が示された。
関連論文リスト
- MeshConv3D: Efficient convolution and pooling operators for triangular 3D meshes [0.0]
MeshConv3Dは、特殊な畳み込みとフェース崩壊ベースのプール演算子を統合する、3Dメッシュ専用手法である。
3つの異なるベンチマークデータセットで得られた実験結果から,提案手法により,同等あるいは優れた分類結果が得られることが示された。
論文 参考訳(メタデータ) (2025-01-07T14:41:26Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Spherical Transformer: Adapting Spherical Signal to CNNs [53.18482213611481]
Spherical Transformerは、球状信号を標準CNNで直接処理できるベクトルに変換できます。
我々は,球面MNIST認識,3次元オブジェクト分類,全方向画像セマンティックセグメンテーションの課題に対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-01-11T12:33:16Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - Primal-Dual Mesh Convolutional Neural Networks [62.165239866312334]
本稿では,グラフ・ニューラル・ネットワークの文献からトライアングル・メッシュへ引き起こされた原始双対のフレームワークを提案する。
提案手法は,3次元メッシュのエッジと顔の両方を入力として特徴付け,動的に集約する。
メッシュ単純化の文献から得られたツールを用いて、我々のアプローチに関する理論的知見を提供する。
論文 参考訳(メタデータ) (2020-10-23T14:49:02Z) - Learning Local Neighboring Structure for Robust 3D Shape Representation [143.15904669246697]
3Dメッシュの表現学習は多くのコンピュータビジョンやグラフィックスアプリケーションにおいて重要である。
局所構造認識型異方性畳み込み操作(LSA-Conv)を提案する。
本モデルでは,3次元形状復元において最先端の手法に比べて顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-04-21T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。