論文の概要: Transformers Meet Hyperspectral Imaging: A Comprehensive Study of Models, Challenges and Open Problems
- arxiv url: http://arxiv.org/abs/2506.08596v1
- Date: Tue, 10 Jun 2025 09:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.069953
- Title: Transformers Meet Hyperspectral Imaging: A Comprehensive Study of Models, Challenges and Open Problems
- Title(参考訳): ハイパースペクトルイメージングで見るトランスフォーマー : モデル,課題,オープン問題に関する包括的考察
- Authors: Guyang Zhang, Waleed Abdulla,
- Abstract要約: 2025年までの300以上の論文をレビューし、TransformerベースのHSI分類を専門とする初のエンドツーエンド調査を行った。
この研究は、典型的なパイプライン前処理、パッチまたはピクセルトークン化、位置符号化、空間スペクトル特徴抽出、マルチヘッド自己注意変種、接続のスキップ、損失設計の各段階を分類する。
我々は、貴重な公開データセットの優先順位付け、軽量なオンエッジモデル、照明とセンサーシフト、本質的に解釈可能なアテンションメカニズムについて概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have become the architecture of choice for learning long-range dependencies, yet their adoption in hyperspectral imaging (HSI) is still emerging. We reviewed more than 300 papers published up to 2025 and present the first end-to-end survey dedicated to Transformer-based HSI classification. The study categorizes every stage of a typical pipeline-pre-processing, patch or pixel tokenization, positional encoding, spatial-spectral feature extraction, multi-head self-attention variants, skip connections, and loss design-and contrasts alternative design choices with the unique spatial-spectral properties of HSI. We map the field's progress against persistent obstacles: scarce labeled data, extreme spectral dimensionality, computational overhead, and limited model explainability. Finally, we outline a research agenda prioritizing valuable public data sets, lightweight on-edge models, illumination and sensor shifts robustness, and intrinsically interpretable attention mechanisms. Our goal is to guide researchers in selecting, combining, or extending Transformer components that are truly fit for purpose for next-generation HSI applications.
- Abstract(参考訳): トランスフォーマーは長距離依存を学習するためのアーキテクチャとして選択されているが、ハイパースペクトルイメージング(HSI)への採用はいまだに始まっていない。
2025年までの300以上の論文をレビューし、TransformerベースのHSI分類に特化した最初のエンドツーエンド調査を行った。
この研究は、典型的なパイプライン前処理、パッチまたはピクセルトークン化、位置符号化、空間スペクトル特徴抽出、マルチヘッド自己アテンション変種、スキップ接続、損失設計の各段階を分類し、HSIの独自の空間スペクトル特性と代替設計の選択を対比する。
フィールドの進行状況を、ラベル付きデータ不足、極端スペクトル次元、計算オーバーヘッド、限定モデル説明可能性など、永続的な障害に対してマッピングする。
最後に、貴重な公開データセットの優先順位付け、軽量なオンエッジモデル、照明とセンサシフトの堅牢性、本質的に解釈可能なアテンションメカニズムについて概説する。
私たちのゴールは、次世代のHSIアプリケーションに適したTransformerコンポーネントの選択、結合、拡張に研究者を導くことです。
関連論文リスト
- Dual Selective Fusion Transformer Network for Hyperspectral Image Classification [34.7051033596479]
Transformerは、ハイパースペクトル画像(HSI)分類の分野で満足な結果を得た。
既存のトランスフォーマーモデルは、多様な土地被覆タイプと豊富なスペクトル情報によって特徴付けられるHSIシーンを扱う際に、2つの重要な課題に直面している。
HSI分類のための新しいDual Selective Fusion Transformer Network (DSFormer)を提案する。
論文 参考訳(メタデータ) (2024-10-04T06:05:26Z) - Research on Personalized Compression Algorithm for Pre-trained Models Based on Homomorphic Entropy Increase [2.6513322539118582]
我々は、現在のAI分野における2つの重要な技術の課題と進化を探求する:ビジョントランスフォーマーモデルと大規模言語モデル(LLM)。
Vision Transformerは、イメージを小さな断片に分割することで、グローバルな情報をキャプチャするが、その高い参照数とモバイル機器へのオーバヘッド制限の配置を計算する。
LLMは自然言語処理に革命をもたらしたが、デプロイメントの課題にも直面している。
論文 参考訳(メタデータ) (2024-08-16T11:56:49Z) - Geometric Features Enhanced Human-Object Interaction Detection [11.513009304308724]
我々は、新しいエンドツーエンド変換方式HOI検出モデル、すなわち幾何学的特徴強化HOI検出器(GeoHOI)を提案する。
モデルの1つの重要な部分は、UniPointNetと呼ばれる新しい統合された自己教師付きキーポイント学習方法である。
GeoHOIはトランスフォーマーをベースとしたHOI検出器を効果的にアップグレードする。
論文 参考訳(メタデータ) (2024-06-26T18:52:53Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - FactoFormer: Factorized Hyperspectral Transformers with Self-Supervised
Pretraining [36.44039681893334]
ハイパースペクトル画像(HSI)は、豊富なスペクトルと空間情報を含む。
現在の最先端ハイパースペクトル変換器は、入力されたHSIサンプルをスペクトル次元に沿ってトークン化するのみである。
本稿では、自己教師付き事前学習手順を取り入れた新しい分解スペクトル空間変換器を提案する。
論文 参考訳(メタデータ) (2023-09-18T02:05:52Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。