論文の概要: Multiscale Convolutional Transformer with Center Mask Pretraining for
Hyperspectral Image Classificationtion
- arxiv url: http://arxiv.org/abs/2203.04771v1
- Date: Wed, 9 Mar 2022 14:42:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 16:26:06.831189
- Title: Multiscale Convolutional Transformer with Center Mask Pretraining for
Hyperspectral Image Classificationtion
- Title(参考訳): ハイパースペクトル画像分類のための中心マスク前処理によるマルチスケール畳み込み変換器
- Authors: Yifan Wang, Sen Jia, Zhongfan Zhang
- Abstract要約: 本稿では,空間スペクトル情報の効率的な抽出を実現するために,高スペクトル画像(HSI)のための高速多スケール畳み込みモジュールを提案する。
マスクオートエンコーダと同様に、我々の事前学習法は、エンコーダ内の中央画素の対応するトークンのみをマスクし、残りのトークンをデコーダに入力し、中央画素のスペクトル情報を再構成する。
- 参考スコア(独自算出の注目度): 14.33259265286265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hyperspectral images (HSI) not only have a broad macroscopic field of view
but also contain rich spectral information, and the types of surface objects
can be identified through spectral information, which is one of the main
applications in hyperspectral image related research.In recent years, more and
more deep learning methods have been proposed, among which convolutional neural
networks (CNN) are the most influential. However, CNN-based methods are
difficult to capture long-range dependencies, and also require a large amount
of labeled data for model training.Besides, most of the self-supervised
training methods in the field of HSI classification are based on the
reconstruction of input samples, and it is difficult to achieve effective use
of unlabeled samples. To address the shortcomings of CNN networks, we propose a
noval multi-scale convolutional embedding module for HSI to realize effective
extraction of spatial-spectral information, which can be better combined with
Transformer network.In order to make more efficient use of unlabeled data, we
propose a new self-supervised pretask. Similar to Mask autoencoder, but our
pre-training method only masks the corresponding token of the central pixel in
the encoder, and inputs the remaining token into the decoder to reconstruct the
spectral information of the central pixel.Such a pretask can better model the
relationship between the central feature and the domain feature, and obtain
more stable training results.
- Abstract(参考訳): ハイパースペクトラル画像(hsi)は広汎なマクロ視野を持つだけでなく、スペクトル情報も豊富に含むため、ハイパースペクトラル画像関連研究の主要な応用の一つであるスペクトル情報によって表面オブジェクトの種類を識別できる。近年では、畳み込みニューラルネットワーク(cnn)が最も影響力のある深層学習手法が提案されている。
しかし, CNN を用いた手法は, 長距離依存の捕捉が困難であり, モデルトレーニングに大量のラベル付きデータを必要とするため, HSI 分類分野における自己教師付き学習手法の多くは, 入力サンプルの再構成に基づいており, ラベルなしサンプルの有効利用は困難である。
CNNネットワークの欠点に対処するために,トランスフォーマーネットワークとよりうまく結合可能な空間スペクトル情報の効率的な抽出を実現するために,HSI のための高速なマルチスケール畳み込み組込みモジュールを提案する。
マスクオートエンコーダと同様に、我々の事前学習法は、エンコーダ内の中央画素の対応するトークンのみをマスクし、残りのトークンをデコーダに入力して中央画素のスペクトル情報を再構成する。
関連論文リスト
- Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - FocDepthFormer: Transformer with latent LSTM for Depth Estimation from Focal Stack [11.433602615992516]
本稿では,トランスフォーマーをLSTMモジュールとCNNデコーダと統合した新しいトランスフォーマーネットワークFocDepthFormerを提案する。
LSTMを組み込むことで、FocDepthFormerは大規模な単分子RGB深さ推定データセットで事前トレーニングすることができる。
我々のモデルは、複数の評価指標で最先端のアプローチより優れています。
論文 参考訳(メタデータ) (2023-10-17T11:53:32Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Multi-spectral Class Center Network for Face Manipulation Detection and Localization [52.569170436393165]
顔の操作検出と局所化のための新しいマルチスペクトル・クラス・センター・ネットワーク(MSCCNet)を提案する。
周波数帯域の異なる特徴に基づき、MSCCモジュールはマルチスペクトルクラスセンターを収集し、ピクセル対クラス関係を計算する。
多スペクトルクラスレベルの表現を適用することで、偽画像の操作された領域に敏感な視覚概念の意味情報を抑えることができる。
論文 参考訳(メタデータ) (2023-05-18T08:09:20Z) - Visual Recognition with Deep Nearest Centroids [57.35144702563746]
我々は、概念的にエレガントで驚くほど効果的な大規模視覚認識ネットワークである深部セントロイド(DNC)を考案した。
パラメトリックと比較すると、DNCは画像分類(CIFAR-10, ImageNet)に優れ、画像認識(ADE20K, Cityscapes)を大いに起動する。
論文 参考訳(メタデータ) (2022-09-15T15:47:31Z) - Agricultural Plantation Classification using Transfer Learning Approach
based on CNN [0.0]
深層学習により高スペクトル画像認識の効率は著しく向上した。
CNNとMulti-Layer Perceptron(MLP)は画像の分類に優れたプロセスであることが示されている。
本稿では,移動学習の手法を用いて,学習時間を短縮し,ラベル付き大規模データセットへの依存を減らすことを提案する。
論文 参考訳(メタデータ) (2022-06-19T14:43:31Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Learning A 3D-CNN and Transformer Prior for Hyperspectral Image
Super-Resolution [80.93870349019332]
本稿では,CNN の代わりに Transformer を用いて HSI の事前学習を行う新しい HSISR 手法を提案する。
具体的には、まず勾配アルゴリズムを用いてHSISRモデルを解き、次に展開ネットワークを用いて反復解過程をシミュレートする。
論文 参考訳(メタデータ) (2021-11-27T15:38:57Z) - New SAR target recognition based on YOLO and very deep multi-canonical
correlation analysis [0.1503974529275767]
本稿では,異なるCNN層から有効な特徴を適応的に融合させることにより,SAR画像ターゲット分類のためのロバストな特徴抽出手法を提案する。
MSTARデータセットの実験により,提案手法が最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-10-28T18:10:26Z) - Compressive spectral image classification using 3D coded convolutional
neural network [12.67293744927537]
本稿では、符号化開口スナップショット分光画像(CASSI)の測定に基づく新しい深層学習HIC手法を提案する。
3次元符号化畳み込みニューラルネットワーク(3D-CCNN)と呼ばれる新しいタイプのディープラーニング戦略を提案し,その分類問題を効率的に解く。
ディープラーニングネットワークと符号化開口部の相乗効果を利用して、分類精度を効果的に向上する。
論文 参考訳(メタデータ) (2020-09-23T15:05:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。