論文の概要: Pyramid Hierarchical Transformer for Hyperspectral Image Classification
- arxiv url: http://arxiv.org/abs/2404.14945v1
- Date: Tue, 23 Apr 2024 11:41:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 14:21:26.308655
- Title: Pyramid Hierarchical Transformer for Hyperspectral Image Classification
- Title(参考訳): ハイパースペクトル画像分類のためのピラミッド階層変換器
- Authors: Muhammad Ahmad, Muhammad Hassaan Farooq Butt, Manuel Mazzara, Salvatore Distifano,
- Abstract要約: ピラミッド型階層変換器(PyFormer)を提案する。
この革新的なアプローチは、入力データを階層的にセグメントにまとめ、それぞれが異なる抽象レベルを表す。
その結果,従来の手法よりも提案手法の方が優れていることが示された。
- 参考スコア(独自算出の注目度): 1.9427851979929982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The traditional Transformer model encounters challenges with variable-length input sequences, particularly in Hyperspectral Image Classification (HSIC), leading to efficiency and scalability concerns. To overcome this, we propose a pyramid-based hierarchical transformer (PyFormer). This innovative approach organizes input data hierarchically into segments, each representing distinct abstraction levels, thereby enhancing processing efficiency for lengthy sequences. At each level, a dedicated transformer module is applied, effectively capturing both local and global context. Spatial and spectral information flow within the hierarchy facilitates communication and abstraction propagation. Integration of outputs from different levels culminates in the final input representation. Experimental results underscore the superiority of the proposed method over traditional approaches. Additionally, the incorporation of disjoint samples augments robustness and reliability, thereby highlighting the potential of our approach in advancing HSIC. The source code is available at https://github.com/mahmad00/PyFormer.
- Abstract(参考訳): 従来のTransformerモデルは、特にハイパースペクトル画像分類(HSIC)において、可変長入力シーケンスの課題に直面する。
これを解決するために,ピラミッド型階層型トランス (PyFormer) を提案する。
この革新的なアプローチは、入力データを階層的にセグメントに整理し、それぞれが異なる抽象レベルを表現し、長いシーケンスの処理効率を向上する。
各レベルでは、ローカルとグローバルの両方のコンテキストを効果的にキャプチャする専用のトランスフォーマーモジュールが適用される。
階層内の空間的およびスペクトル的な情報フローは、コミュニケーションと抽象化の伝播を容易にする。
異なるレベルからの出力の統合は、最終的な入力表現で終わる。
従来の手法よりも提案手法の方が優れていることを示す実験結果が得られた。
さらに,解離サンプルの導入により,堅牢性と信頼性が向上し,HSICの進展に対する我々のアプローチの可能性が強調される。
ソースコードはhttps://github.com/mahmad00/PyFormer.comで入手できる。
関連論文リスト
- MASSFormer: Mobility-Aware Spectrum Sensing using Transformer-Driven
Tiered Structure [3.6194127685460553]
モビリティを意識したトランスフォーマー駆動構造(MASSFormer)をベースとした協調センシング手法を開発した。
本稿では,モバイルプライマリユーザ(PU)とセカンダリユーザ(SU)の動的シナリオについて考察する。
提案手法は, 堅牢性を示すために, 不完全な報告チャネルのシナリオ下で試験される。
論文 参考訳(メタデータ) (2024-09-26T05:25:25Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - AerialFormer: Multi-resolution Transformer for Aerial Image Segmentation [7.415370401064414]
AerialFormerは,契約経路におけるトランスフォーマーと,拡張経路における軽量なMD-CNN(Multi-Dilated Conal Neural Networks)を一体化する。
我々のAerialFormerは階層構造として設計されており、Transformerはマルチスケール機能を出力し、MD-CNNはマルチスケールから情報を集約する。
AerialFormerをiSAID、LoveDA、Potsdamの3つの一般的なデータセットでベンチマークしました。
論文 参考訳(メタデータ) (2023-06-12T03:28:18Z) - A Contrastive Learning Scheme with Transformer Innate Patches [4.588028371034407]
本稿では,Transformer固有のパッチを用いたコントラスト学習方式であるContrastive Transformerを提案する。
このスキームは、教師付きパッチレベルのコントラスト学習を行い、地上の真理マスクに基づいてパッチを選択する。
このスキームはすべての視覚変換器アーキテクチャに適用され、実装が容易で、最小限のメモリフットプリントを導入している。
論文 参考訳(メタデータ) (2023-03-26T20:19:28Z) - Efficient End-to-End Video Question Answering with Pyramidal Multimodal
Transformer [13.71165050314854]
ビデオQA(End-to-end Video Questioning)のための新しい手法を提案する。
学習可能な単語埋め込み層を組み込んだピラミッド型マルチモーダルトランスフォーマー(PMT)モデルでこれを実現できる。
我々は,5つのビデオQAベンチマークにおいて,最先端手法に対して高い計算効率で高い性能を示す。
論文 参考訳(メタデータ) (2023-02-04T09:14:18Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。