論文の概要: 3D-RCNet: Learning from Transformer to Build a 3D Relational ConvNet for Hyperspectral Image Classification
- arxiv url: http://arxiv.org/abs/2408.13728v1
- Date: Sun, 25 Aug 2024 05:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 18:09:49.716210
- Title: 3D-RCNet: Learning from Transformer to Build a 3D Relational ConvNet for Hyperspectral Image Classification
- Title(参考訳): 3D-RCNet:ハイパースペクトル画像分類のための3Dリレーショナル ConvNet 構築のためのトランスフォーマからの学習
- Authors: Haizhao Jing, Liuwei Wan, Xizhe Xue, Haokui Zhang, Ying Li,
- Abstract要約: 本稿では,ConvNet と ViT の両長所を継承する 3D-RCNet という3Dリレーショナル ConvNet を提案する。
提案した3D-RCNetは、ViTの柔軟性を享受しながら、ConvNetの高い計算効率を維持している。
3つの代表的なベンチマークHSIデータセットに対する実証的な評価は、提案モデルが以前のConvNetおよびViTベースのHSIアプローチより優れていることを示している。
- 参考スコア(独自算出の注目度): 8.124761584272132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the Vision Transformer (ViT) model has replaced the classical Convolutional Neural Network (ConvNet) in various computer vision tasks due to its superior performance. Even in hyperspectral image (HSI) classification field, ViT-based methods also show promising potential. Nevertheless, ViT encounters notable difficulties in processing HSI data. Its self-attention mechanism, which exhibits quadratic complexity, escalates computational costs. Additionally, ViT's substantial demand for training samples does not align with the practical constraints posed by the expensive labeling of HSI data. To overcome these challenges, we propose a 3D relational ConvNet named 3D-RCNet, which inherits both strengths of ConvNet and ViT, resulting in high performance in HSI classification. We embed the self-attention mechanism of Transformer into the convolutional operation of ConvNet to design 3D relational convolutional operation and use it to build the final 3D-RCNet. The proposed 3D-RCNet maintains the high computational efficiency of ConvNet while enjoying the flexibility of ViT. Additionally, the proposed 3D relational convolutional operation is a plug-and-play operation, which can be inserted into previous ConvNet-based HSI classification methods seamlessly. Empirical evaluations on three representative benchmark HSI datasets show that the proposed model outperforms previous ConvNet-based and ViT-based HSI approaches.
- Abstract(参考訳): 近年,視覚変換器(ViT)モデルでは,様々なコンピュータビジョンタスクにおいて,従来の畳み込みニューラルネットワーク(ConvNet)に取って代わられている。
ハイパースペクトル画像(HSI)分類分野においても,ViT法は有望な可能性を示す。
それでも、ViTはHSIデータの処理において顕著な困難に直面している。
その自己保持機構は二次的な複雑さを示し、計算コストを増大させる。
さらに、トレーニングサンプルに対するViTのかなりの需要は、高価なHSIデータのラベル付けによって生じる現実的な制約と一致しない。
これらの課題を克服するため、3D-RCNetと呼ばれる3Dリレーショナルな3Dリレーショナルな3D-RCNetを提案する。
本研究では,Transformerの自己保持機構をConvNetの畳み込み操作に組み込んで3Dリレーショナル畳み込み操作を設計し,それを最終3D-RCNetを構築する。
提案した3D-RCNetは、ViTの柔軟性を享受しながら、ConvNetの高い計算効率を維持している。
さらに,提案した3Dリレーショナル畳み込み操作は,従来のConvNetベースのHSI分類手法にシームレスに挿入可能なプラグアンドプレイ操作である。
3つの代表的なベンチマークHSIデータセットに対する実証的な評価は、提案モデルが以前のConvNetおよびViTベースのHSIアプローチより優れていることを示している。
関連論文リスト
- Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery [0.0]
ビジョントランスフォーマー(ViT)は最近、コンピュータビジョンの分野で新しい研究の波をもたらした。
本稿では、iSAID上のリモートセンシング空中画像のセマンティックセグメンテーションにViTを使用する(あるいは使用しない)3つの重要な要素の比較に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-14T00:18:04Z) - 3D-Convolution Guided Spectral-Spatial Transformer for Hyperspectral Image Classification [12.729885732069926]
視覚変換器(ViT)は畳み込みニューラルネットワーク(CNN)よりも有望な分類性能を示した
ViTはシーケンシャルなデータを出力するが、CNNのようなスペクトル空間情報を抽出することはできない。
HSI分類のための3次元畳み込み誘導スペクトル空間変換器(3D-ConvSST)を提案する。
論文 参考訳(メタデータ) (2024-04-20T03:39:54Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Large Generative Model Assisted 3D Semantic Communication [51.17527319441436]
本稿では,GAM-3DSC(Generative AI Model Assisted 3D SC)システムを提案する。
まず,ユーザ要求に基づいて3次元シナリオからキーセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティクスを抽出する。
次に、これらの多視点画像を符号化するための適応意味圧縮モデル(ASCM)を提案する。
最後に、物理チャネルのチャネル状態情報(CSI)を推定・精査するために、条件付き生成逆数ネットワークと拡散モデル支援チャネル推定(GDCE)を設計する。
論文 参考訳(メタデータ) (2024-03-09T03:33:07Z) - Spatial-Spectral Hyperspectral Classification based on Learnable 3D
Group Convolution [18.644268589334217]
本稿では、3D-DenseNetモデルの改良と軽量モデル設計に基づく学習可能なグループ畳み込みネットワーク(LGCNet)を提案する。
LGCNetモジュールは、入力チャネルと畳み込みカーネルグループのための動的学習手法を導入することにより、グループ畳み込みの欠点を改善する。
LGCNetは推論速度と精度の進歩を達成し、インドパインズ、パヴィア大学、KSCのデータセットで主流のハイパースペクトル画像分類法より優れている。
論文 参考訳(メタデータ) (2023-07-15T05:47:12Z) - MeT: A Graph Transformer for Semantic Segmentation of 3D Meshes [10.667492516216887]
本稿では3次元メッシュのセマンティックセグメンテーションのためのトランスフォーマーに基づく手法を提案する。
隣接行列のラプラシア固有ベクトルを用いて位置符号化を行う。
提案手法は,3次元メッシュのセマンティックセグメンテーションにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2023-07-03T15:45:14Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - VidConv: A modernized 2D ConvNet for Efficient Video Recognition [0.8070014188337304]
ビジョントランスフォーマー(ViT)は、多くのビジョンタスクにおいて、着実に記録を破っている。
ViTは一般的に計算量、メモリ消費量、組込みデバイスには不向きである。
本稿では、ConvNetの近代化された構造を用いて、アクション認識のための新しいバックボーンを設計する。
論文 参考訳(メタデータ) (2022-07-08T09:33:46Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z) - A New Backbone for Hyperspectral Image Reconstruction [90.48427561874402]
3次元ハイパースペクトル画像(HSI)再構成は、スナップショット圧縮画像の逆過程を指す。
空間/スペクトル不変Residual U-Net、すなわちSSI-ResU-Netを提案する。
SSI-ResU-Net は浮動小数点演算の 77.3% 以上で競合する性能を実現する。
論文 参考訳(メタデータ) (2021-08-17T16:20:51Z) - Hyperspectral Classification Based on Lightweight 3-D-CNN With Transfer
Learning [67.40866334083941]
限定サンプルに基づくHSI分類のためのエンドツーエンドの3次元軽量畳み込みニューラルネットワーク(CNN)を提案する。
従来の3D-CNNモデルと比較して,提案した3D-LWNetはネットワーク構造が深く,パラメータが小さく,計算コストも低い。
本モデルでは,HSI分類の競合性能を,いくつかの最先端手法と比較した。
論文 参考訳(メタデータ) (2020-12-07T03:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。