論文の概要: Spherical Transformer: Adapting Spherical Signal to CNNs
- arxiv url: http://arxiv.org/abs/2101.03848v2
- Date: Sun, 24 Jan 2021 10:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 14:41:15.419683
- Title: Spherical Transformer: Adapting Spherical Signal to CNNs
- Title(参考訳): 球形変圧器:CNNへの球形信号適応
- Authors: Haikuan Du and Hui Cao and Shen Cai and Junchi Yan and Siyu Zhang
- Abstract要約: Spherical Transformerは、球状信号を標準CNNで直接処理できるベクトルに変換できます。
我々は,球面MNIST認識,3次元オブジェクト分類,全方向画像セマンティックセグメンテーションの課題に対するアプローチを評価する。
- 参考スコア(独自算出の注目度): 53.18482213611481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (CNNs) have been widely used in various vision
tasks, e.g. image classification, semantic segmentation, etc. Unfortunately,
standard 2D CNNs are not well suited for spherical signals such as panorama
images or spherical projections, as the sphere is an unstructured grid. In this
paper, we present Spherical Transformer which can transform spherical signals
into vectors that can be directly processed by standard CNNs such that many
well-designed CNNs architectures can be reused across tasks and datasets by
pretraining. To this end, the proposed method first uses locally structured
sampling methods such as HEALPix to construct a transformer grid by using the
information of spherical points and its adjacent points, and then transforms
the spherical signals to the vectors through the grid. By building the
Spherical Transformer module, we can use multiple CNN architectures directly.
We evaluate our approach on the tasks of spherical MNIST recognition, 3D object
classification and omnidirectional image semantic segmentation. For 3D object
classification, we further propose a rendering-based projection method to
improve the performance and a rotational-equivariant model to improve the
anti-rotation ability. Experimental results on three tasks show that our
approach achieves superior performance over state-of-the-art methods.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は様々な視覚タスクで広く使われている。
画像分類、意味セグメンテーションなど。
残念なことに、標準的な2d cnnはパノラマ画像や球面投影のような球面信号には適していない。
本稿では,球面信号のベクトル変換を標準CNNで直接処理できる球面変換器を提案する。
この目的のために,提案手法はまずHEALPixなどの局所的なサンプリング手法を用いて,球点とその隣接点の情報を用いてトランスフォーマグリッドを構築し,次いで,球面信号をグリッドを介してベクトルに変換する。
球面トランスフォーマーモジュールを構築することで、複数のcnnアーキテクチャを直接使用できる。
我々は,球面MNIST認識,3次元オブジェクト分類,全方向画像セマンティックセグメンテーションの課題に対するアプローチを評価する。
さらに, 3次元物体分類のために, 性能向上のためのレンダリングに基づく投影法と, 反回転能力向上のための回転同変モデルを提案する。
3つの課題に対する実験結果から,本手法は最先端手法よりも優れた性能を示すことが示された。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - MeT: A Graph Transformer for Semantic Segmentation of 3D Meshes [10.667492516216887]
本稿では3次元メッシュのセマンティックセグメンテーションのためのトランスフォーマーに基づく手法を提案する。
隣接行列のラプラシア固有ベクトルを用いて位置符号化を行う。
提案手法は,3次元メッシュのセマンティックセグメンテーションにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2023-07-03T15:45:14Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Implicit Ray-Transformers for Multi-view Remote Sensing Image
Segmentation [26.726658200149544]
スパースラベル付きRSシーンセマンティックセグメンテーションのためのインプリシティ・ニューラル表現(INR)に基づく「インプリシティ・レイ・トランスフォーマ(IRT)」を提案する。
提案手法は,2段階の学習プロセスを含む。第1段階では,リモートセンシングシーンの色と3次元構造を符号化するために,ニューラルネットワークを最適化する。
第2段階では、ニューラルネットワークの3D特徴と2Dテクスチャ特徴の関係を利用して、より優れた意味表現を学習するレイ変換器を設計する。
論文 参考訳(メタデータ) (2023-03-15T07:05:07Z) - CpT: Convolutional Point Transformer for 3D Point Cloud Processing [10.389972581905]
CpT: Convolutional Point Transformer - 3Dポイントクラウドデータの非構造化の性質を扱うための新しいディープラーニングアーキテクチャ。
CpTは、既存の注目ベースのConvolutions Neural Networksと、以前の3Dポイントクラウド処理トランスフォーマーの改善である。
我々のモデルは、既存の最先端のアプローチと比較して、様々なポイントクラウド処理タスクの効果的なバックボーンとして機能する。
論文 参考訳(メタデータ) (2021-11-21T17:45:55Z) - Concentric Spherical GNN for 3D Representation Learning [53.45704095146161]
同心球面特徴写像を学習するための新しい多解畳み込みアーキテクチャを提案する。
当社の階層的アーキテクチャは、球内情報と球間情報の両方を組み込むための代替学習に基づいています。
回転データを用いた3次元分類作業における最先端性能向上へのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-18T19:05:04Z) - Learning Local Neighboring Structure for Robust 3D Shape Representation [143.15904669246697]
3Dメッシュの表現学習は多くのコンピュータビジョンやグラフィックスアプリケーションにおいて重要である。
局所構造認識型異方性畳み込み操作(LSA-Conv)を提案する。
本モデルでは,3次元形状復元において最先端の手法に比べて顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-04-21T13:40:03Z) - Cylindrical Convolutional Networks for Joint Object Detection and
Viewpoint Estimation [76.21696417873311]
3次元空間で定義された畳み込みカーネルの円筒形表現を利用する学習可能なモジュールである円筒型畳み込みネットワーク(CCN)を導入する。
CCNはビュー固有の畳み込みカーネルを通してビュー固有の特徴を抽出し、各視点におけるオブジェクトカテゴリスコアを予測する。
本実験は,円柱状畳み込みネットワークが関節物体の検出と視点推定に与える影響を実証する。
論文 参考訳(メタデータ) (2020-03-25T10:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。