論文の概要: Dual Transformer for Point Cloud Analysis
- arxiv url: http://arxiv.org/abs/2104.13044v1
- Date: Tue, 27 Apr 2021 08:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 20:23:03.676803
- Title: Dual Transformer for Point Cloud Analysis
- Title(参考訳): 点雲解析のためのデュアルトランス
- Authors: Xian-Feng Han and Yi-Fei Jin and Hui-Xian Cheng and Guo-Qiang Xiao
- Abstract要約: Dual Transformer Network (DTNet) と呼ばれる新しいポイントクラウド表現学習アーキテクチャを紹介します。
具体的には、よく設計されたポイントワイズモデルとチャネルワイズマルチヘッドセルフアテンションモデルを同時にアグリゲートすることで、DPCTモジュールは位置とチャネルの観点から意味的にはるかにリッチなコンテキスト依存性をキャプチャできます。
3Dポイントクラウドの分類とセグメンテーションのタスクにおいて,提案するトランスフォーマーフレームワークの有効性を実証し,最先端のアプローチと比較して高い競争性能を実現した。
- 参考スコア(独自算出の注目度): 2.160196691362033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following the tremendous success of transformer in natural language
processing and image understanding tasks, in this paper, we present a novel
point cloud representation learning architecture, named Dual Transformer
Network (DTNet), which mainly consists of Dual Point Cloud Transformer (DPCT)
module. Specifically, by aggregating the well-designed point-wise and
channel-wise multi-head self-attention models simultaneously, DPCT module can
capture much richer contextual dependencies semantically from the perspective
of position and channel. With the DPCT module as a fundamental component, we
construct the DTNet for performing point cloud analysis in an end-to-end
manner. Extensive quantitative and qualitative experiments on publicly
available benchmarks demonstrate the effectiveness of our proposed transformer
framework for the tasks of 3D point cloud classification and segmentation,
achieving highly competitive performance in comparison with the
state-of-the-art approaches.
- Abstract(参考訳): 本稿では,自然言語処理および画像理解タスクにおけるトランスフォーマーの大幅な成功に続いて,Dual Point Cloud Transformer Network (DTNet) と呼ばれる,Dual Point Cloud Transformer (DPCT) モジュールで構成される新しいポイントクラウド表現学習アーキテクチャを提案する。
具体的には、よく設計されたポイントワイドとチャネルワイドの自己アテンションモデルを同時に集約することにより、DPCTモジュールは位置とチャネルの観点から意味的によりリッチなコンテキスト依存をキャプチャすることができる。
DPCTモジュールを基本コンポーネントとして,ポイントクラウド解析を行うDTNetをエンドツーエンドで構築する。
3Dポイントクラウドの分類とセグメンテーションのタスクにおいて,提案するトランスフォーマーフレームワークの有効性を実証し,最先端のアプローチと比較して高い競争性能を実現した。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - PointCAT: Cross-Attention Transformer for point cloud [1.3176016397292067]
本稿では、新しいエンドツーエンドネットワークアーキテクチャであるPointCAT(Point Cross-Attention Transformer)を提案する。
提案手法は,2つのセシレート・クロスアテンション・トランスを用いたマルチスケール機能を組み合わせたものである。
本手法は, 形状分類, 部分分割, セマンティックセマンティックセマンティクスタスクにおけるいくつかの手法に比較して, 性能を向上または達成する。
論文 参考訳(メタデータ) (2023-04-06T11:58:18Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - 3DCTN: 3D Convolution-Transformer Network for Point Cloud Classification [23.0009969537045]
本稿では,ポイントクラウド分類のためのTransformerとの畳み込みを取り入れた,新しい階層型フレームワークを提案する。
本手法は精度と効率の両面で最先端の分類性能を実現する。
論文 参考訳(メタデータ) (2022-03-02T02:42:14Z) - Deep Point Cloud Reconstruction [74.694733918351]
3Dスキャンから得られる点雲は、しばしばスパース、ノイズ、不規則である。
これらの問題に対処するため、最近の研究は別々に行われ、不正確な点雲を密度化、復調し、完全な不正確な点雲を観測している。
本研究では,1) 初期密度化とデノナイズのための3次元スパース集積時間ガラスネットワーク,2) 離散ボクセルを3Dポイントに変換するトランスフォーマーによる改良,の2段階からなる深部点雲再構成ネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-23T07:53:28Z) - CpT: Convolutional Point Transformer for 3D Point Cloud Processing [10.389972581905]
CpT: Convolutional Point Transformer - 3Dポイントクラウドデータの非構造化の性質を扱うための新しいディープラーニングアーキテクチャ。
CpTは、既存の注目ベースのConvolutions Neural Networksと、以前の3Dポイントクラウド処理トランスフォーマーの改善である。
我々のモデルは、既存の最先端のアプローチと比較して、様々なポイントクラウド処理タスクの効果的なバックボーンとして機能する。
論文 参考訳(メタデータ) (2021-11-21T17:45:55Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Point Cloud Learning with Transformer [2.3204178451683264]
我々は,マルチレベルマルチスケールポイントトランスフォーマ(mlmspt)と呼ばれる新しいフレームワークを提案する。
具体的には、点ピラミッド変換器を用いて、多様な分解能やスケールを持つ特徴をモデル化する。
マルチレベルトランスモジュールは、各スケールの異なるレベルからコンテキスト情報を集約し、それらの相互作用を強化するように設計されている。
論文 参考訳(メタデータ) (2021-04-28T08:39:21Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - TransReID: Transformer-based Object Re-Identification [20.02035310635418]
Vision Transformer (ViT) は、オブジェクト再識別(ReID)タスクのための純粋なトランスフォーマーベースのモデルである。
いくつかの適応により、強いベースラインのViT-BoTは、ViTをバックボーンとして構成される。
本稿では、TransReIDと呼ばれる純粋なトランスフォーマーフレームワークを提案し、これはReID研究に純粋なトランスフォーマーを用いた最初の研究である。
論文 参考訳(メタデータ) (2021-02-08T17:33:59Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。