論文の概要: FactoFormer: Factorized Hyperspectral Transformers with Self-Supervised
Pre-Training
- arxiv url: http://arxiv.org/abs/2309.09431v1
- Date: Mon, 18 Sep 2023 02:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 15:32:07.488521
- Title: FactoFormer: Factorized Hyperspectral Transformers with Self-Supervised
Pre-Training
- Title(参考訳): factoformer:自己教師付き事前学習による因子化ハイパースペクトルトランスフォーマ
- Authors: Shaheer Mohamed, Maryam Haghighat, Tharindu Fernando, Sridha
Sridharan, Clinton Fookes, Peyman Moghadam
- Abstract要約: ハイパースペクトル画像(HSI)は、豊富なスペクトルと空間情報を含む。
現在の最先端ハイパースペクトル変換器は、入力されたHSIサンプルをスペクトル次元に沿ってトークン化するのみである。
本稿では、自己教師付き事前学習手順を取り入れた新しい分解スペクトル空間変換器を提案する。
- 参考スコア(独自算出の注目度): 36.44039681893334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hyperspectral images (HSIs) contain rich spectral and spatial information.
Motivated by the success of transformers in the field of natural language
processing and computer vision where they have shown the ability to learn long
range dependencies within input data, recent research has focused on using
transformers for HSIs. However, current state-of-the-art hyperspectral
transformers only tokenize the input HSI sample along the spectral dimension,
resulting in the under-utilization of spatial information. Moreover,
transformers are known to be data-hungry and their performance relies heavily
on large-scale pre-training, which is challenging due to limited annotated
hyperspectral data. Therefore, the full potential of HSI transformers has not
been fully realized. To overcome these limitations, we propose a novel
factorized spectral-spatial transformer that incorporates factorized
self-supervised pre-training procedures, leading to significant improvements in
performance. The factorization of the inputs allows the spectral and spatial
transformers to better capture the interactions within the hyperspectral data
cubes. Inspired by masked image modeling pre-training, we also devise efficient
masking strategies for pre-training each of the spectral and spatial
transformers. We conduct experiments on three publicly available datasets for
HSI classification task and demonstrate that our model achieves
state-of-the-art performance in all three datasets. The code for our model will
be made available at https://github.com/csiro-robotics/factoformer.
- Abstract(参考訳): ハイパースペクトル画像(HSI)は、豊富なスペクトルと空間情報を含む。
自然言語処理やコンピュータビジョンの分野でのトランスフォーマーの成功により、入力データ内の長距離依存を学習する能力が示され、最近の研究は、HSIのためのトランスフォーマーの使用に焦点を当てている。
しかし、現在最先端のハイパースペクトル変換器は、入力されたHSIサンプルをスペクトル次元に沿ってトークン化するだけで、空間情報の未利用をもたらす。
さらに、トランスはデータハングリーであることが知られており、その性能は大規模な事前トレーニングに大きく依存している。
したがって、hsiトランスフォーマのポテンシャルは十分に実現されていない。
これらの限界を克服するために, 自己教師付き事前学習手順を組み込んだ新しい因子化スペクトル空間トランスを提案する。
入力の分解により、スペクトル変換器と空間変換器はハイパースペクトルデータキューブ内の相互作用をよりよく捉えることができる。
マスク画像モデリングの事前学習に着想を得て,スペクトルおよび空間トランスフォーマーを事前学習するための効率的なマスク戦略を考案する。
HSI分類タスクのための3つの公開データセットの実験を行い、我々のモデルが3つのデータセットすべてにおいて最先端のパフォーマンスを達成することを示す。
私たちのモデルのコードは、https://github.com/csiro-robotics/factoformerで利用可能になります。
関連論文リスト
- Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Transformers For Recognition In Overhead Imagery: A Reality Check [0.0]
オーバヘッド画像のための最先端セグメンテーションモデルにトランスフォーマー構造を加えることの影響を比較した。
我々の結果は、トランスフォーマーは一貫性があるが、控えめな、パフォーマンスの向上をもたらすことを示唆している。
論文 参考訳(メタデータ) (2022-10-23T02:17:31Z) - Towards Data-Efficient Detection Transformers [77.43470797296906]
我々は、ほとんどの検出トランスフォーマーが、小さなデータセットで大きなパフォーマンス低下に悩まされていることを示す。
我々はデータ効率に影響を与える要因を、データ効率のRCNNから代表DETRへのステップバイステップ遷移によって実証的に分析する。
本稿では,よりリッチな監視とデータ効率向上を目的とした,シンプルながら効果的なラベル拡張手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T17:56:34Z) - Gophormer: Ego-Graph Transformer for Node Classification [27.491500255498845]
本稿では,egoグラフにフルグラフの代わりにトランスフォーマーを適用した新しいGophormerモデルを提案する。
具体的には、変圧器の入力としてエゴグラフをサンプリングするためにNode2Seqモジュールが提案されており、スケーラビリティの課題が軽減されている。
エゴグラフサンプリングで導入された不確実性に対処するために,一貫性の正則化とマルチサンプル推論戦略を提案する。
論文 参考訳(メタデータ) (2021-10-25T16:43:32Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。