論文の概要: Adaptive Channel Encoding Transformer for Point Cloud Analysis
- arxiv url: http://arxiv.org/abs/2112.02507v1
- Date: Sun, 5 Dec 2021 08:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 16:34:29.237668
- Title: Adaptive Channel Encoding Transformer for Point Cloud Analysis
- Title(参考訳): 点雲解析のための適応チャネル符号化トランス
- Authors: Guoquan Xu, Hezhi Cao, Jianwei Wan, Ke Xu, Yanxin Ma, Cong Zhang
- Abstract要約: Transformer-Convと呼ばれるチャネル畳み込みは、チャネルをエンコードするように設計されている。
座標と特徴の間の潜在的な関係をキャプチャすることで、特徴チャネルをエンコードすることができる。
提案手法は,3つのベンチマークデータセット上での最先端のクラウド分類とセグメンテーション手法よりも優れている。
- 参考スコア(独自算出の注目度): 6.90125287791398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer plays an increasingly important role in various computer vision
areas and remarkable achievements have also been made in point cloud analysis.
Since they mainly focus on point-wise transformer, an adaptive channel encoding
transformer is proposed in this paper. Specifically, a channel convolution
called Transformer-Conv is designed to encode the channel. It can encode
feature channels by capturing the potential relationship between coordinates
and features. Compared with simply assigning attention weight to each channel,
our method aims to encode the channel adaptively. In addition, our network
adopts the neighborhood search method of low-level and high-level dual semantic
receptive fields to improve the performance. Extensive experiments show that
our method is superior to state-of-the-art point cloud classification and
segmentation methods on three benchmark datasets.
- Abstract(参考訳): トランスフォーマーは、様々なコンピュータビジョン領域においてますます重要な役割を担い、ポイントクラウド分析においても顕著な成果を上げている。
本稿では, 主にポイントワイズトランスに焦点をあてるので, 適応型チャネル符号化トランスを提案する。
具体的には、Transformer-Convと呼ばれるチャネル畳み込みがチャネルをエンコードするように設計されている。
座標と特徴の間の潜在的な関係を捉えることで、特徴チャネルをエンコードすることができる。
本手法は,各チャネルに注意重みを割り当てることに比べ,適応的にチャネルを符号化することを目的としている。
また,本ネットワークは,低レベル・高レベルデュアルセマンティクスレセプティブフィールドの近傍探索手法を採用し,その性能向上を図っている。
大規模な実験により,本手法は3つのベンチマークデータセット上での最先端のクラウド分類とセグメンテーション法よりも優れていることが示された。
関連論文リスト
- Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - End-to-end Transformer for Compressed Video Quality Enhancement [21.967066471073462]
本稿では,Swin-AutoEncoderをベースとしたSpatio-Temporal Feature Fusion(SSTF)モジュールとChannel-wise Attention based Quality Enhancement(CAQE)モジュールからなる,トランスフォーマーベースの圧縮ビデオ品質向上(TVQE)手法を提案する。
提案手法は,推定速度とGPU消費の両方の観点から既存手法より優れている。
論文 参考訳(メタデータ) (2022-10-25T08:12:05Z) - Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding [62.502694656615496]
本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
論文 参考訳(メタデータ) (2022-08-25T17:59:29Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - Adaptive Channel Encoding for Point Cloud Analysis [7.696435157444049]
本稿では,適応的なチャネル符号化機構を提案し,チャネル関係を捉える。
特徴のチャネル間の相互依存を明示的に符号化することで、ネットワークによって生成された表現の質を向上させる。
論文 参考訳(メタデータ) (2021-12-05T08:20:27Z) - Transformer Assisted Convolutional Network for Cell Instance
Segmentation [5.195101477698897]
本稿では,従来の畳み込み特徴抽出器の性能向上のためのトランスフォーマーに基づく手法を提案する。
提案手法は, 変圧器の自己アテンションに類似した投影操作を適用することにより, 変圧器を用いたトークン埋め込みと畳み込み特徴写像を融合する。
論文 参考訳(メタデータ) (2021-10-05T18:18:31Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Visual Transformer Pruning [44.43429237788078]
我々は,各層におけるチャネルの影響を識別し,それに応じてプルーニングを実行する視覚トランスフォーマープルーニング手法を提案する。
視覚的な変圧器のpruningのためのパイプラインは次の通りです:1)スパーシティの正規化を用いる訓練;2)pruningチャネル;3)微調整。
提案アルゴリズムのパラメータ削減とFLOP比をImageNetデータセット上で評価し,その有効性を示す。
論文 参考訳(メタデータ) (2021-04-17T09:49:24Z) - End-to-End Multi-Channel Transformer for Speech Recognition [9.949801888214527]
ニューラルトランスフォーマーアーキテクチャを多チャンネル音声認識システムに活用する。
我々のネットワークは、チャネルワイド・セルフアテンション層(CSA)、クロスチャンネルアテンション層(CCA)、マルチチャネルエンコーダ・デコーダアテンション層(EDA)の3つの部分から構成されている。
論文 参考訳(メタデータ) (2021-02-08T00:12:44Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Volumetric Transformer Networks [88.85542905676712]
学習可能なモジュールである容積変換器ネットワーク(VTN)を導入する。
VTNは、中間CNNの空間的およびチャネル的特徴を再設定するために、チャネル回りの歪み場を予測する。
実験の結果,VTNは特徴量の表現力を一貫して向上し,細粒度画像認識とインスタンスレベルの画像検索におけるネットワークの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-07-18T14:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。