論文の概要: THAT: Token-wise High-frequency Augmentation Transformer for Hyperspectral Pansharpening
- arxiv url: http://arxiv.org/abs/2508.08183v1
- Date: Mon, 11 Aug 2025 17:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.225
- Title: THAT: Token-wise High-frequency Augmentation Transformer for Hyperspectral Pansharpening
- Title(参考訳): THAT:高スペクトル焼成用トークンワイド高周波増幅変圧器
- Authors: Hongkun Jin, Hongcheng Jiang, Zejun Zhang, Yuan Zhang, Jia Fu, Tingfeng Li, Kai Luo,
- Abstract要約: トランスフォーマーに基づく手法は、高スペクトルパンシャーピングにおいて強い可能性を証明している。
それらの効果は、冗長なトークン表現とマルチスケール機能モデリングの欠如によって制限されることが多い。
本稿では,高スペクトルパンシャーピングを向上する新しいフレームワークであるToken-wise High- frequency Augmentation Transformer (THAT)を提案する。
- 参考スコア(独自算出の注目度): 11.026691195419453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based methods have demonstrated strong potential in hyperspectral pansharpening by modeling long-range dependencies. However, their effectiveness is often limited by redundant token representations and a lack of multi-scale feature modeling. Hyperspectral images exhibit intrinsic spectral priors (e.g., abundance sparsity) and spatial priors (e.g., non-local similarity), which are critical for accurate reconstruction. From a spectral-spatial perspective, Vision Transformers (ViTs) face two major limitations: they struggle to preserve high-frequency components--such as material edges and texture transitions--and suffer from attention dispersion across redundant tokens. These issues stem from the global self-attention mechanism, which tends to dilute high-frequency signals and overlook localized details. To address these challenges, we propose the Token-wise High-frequency Augmentation Transformer (THAT), a novel framework designed to enhance hyperspectral pansharpening through improved high-frequency feature representation and token selection. Specifically, THAT introduces: (1) Pivotal Token Selective Attention (PTSA) to prioritize informative tokens and suppress redundancy; (2) a Multi-level Variance-aware Feed-forward Network (MVFN) to enhance high-frequency detail learning. Experiments on standard benchmarks show that THAT achieves state-of-the-art performance with improved reconstruction quality and efficiency. The source code is available at https://github.com/kailuo93/THAT.
- Abstract(参考訳): トランスフォーマーに基づく手法は、長距離依存性をモデル化することによって、超スペクトルパンシャーピングの強い可能性を示している。
しかし、それらの効果は冗長なトークン表現とマルチスケール機能モデリングの欠如によって制限されることが多い。
ハイパースペクトル画像は、固有のスペクトル先行(eg, abundance sparsity)と空間先行(eg, non-local similarity)を呈し、正確な再構成に欠かせない。
スペクトル空間の観点からは、ViT(Vision Transformer)は2つの大きな制限に直面している。
これらの問題は、高周波信号の希薄化と局部化の詳細の見落としがちなグローバル自己認識機構に起因している。
これらの課題に対処するために,高周波数特徴表現とトークン選択を改善して高スペクトルパンシャーピングを強化する新しいフレームワークであるToken-wise High- frequency Augmentation Transformer (THAT)を提案する。
具体的には,(1)情報トークンの優先順位付けと冗長性の抑制を目的としたPivotal Token Selective Attention(PTSA),(2)高周波詳細学習を強化するためのMVFN(Multi-level Variance-aware Feed-forward Network)を紹介する。
標準ベンチマークの実験では、THATは再構築品質と効率を改善して最先端のパフォーマンスを達成する。
ソースコードはhttps://github.com/kailuo93/THATで公開されている。
関連論文リスト
- Transformer-Based Person Search with High-Frequency Augmentation and Multi-Wave Mixing [18.871765626140782]
人物探索のための新しい高周波増幅・マルチウェーブ混合法を提案する。
HamWは変圧器の識別的特徴抽出能力を高めるように設計されている。
HamWはCUHK-SYSUデータセットとPRWデータセットの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-29T12:08:26Z) - FreEformer: Frequency Enhanced Transformer for Multivariate Time Series Forecasting [17.738942892605234]
本稿は,textbfFrequency textbfEnhanced Transtextbfformerを利用した,シンプルで効果的なモデルである textbfFreEformerを提案する。
実験により、FreEformerは18の現実世界のベンチマークで最先端のモデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-01-23T08:53:45Z) - Identity-Preserving Text-to-Video Generation by Frequency Decomposition [52.19475797580653]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
本稿では,PT2Vの技術フロンティアを,文献で未解決の2つの方向に推し進める。
本研究では,DiTをベースとした制御可能なPT2VモデルであるConsisIDを提案する。
論文 参考訳(メタデータ) (2024-11-26T13:58:24Z) - Spiking Wavelet Transformer [1.8712213089437697]
スパイキングニューラルネットワーク(SNN)は、従来のディープラーニングに代わるエネルギー効率の高い代替手段を提供する。
SNNの変換器は精度が保証されているが、高周波パターンの学習に苦労している。
本研究では、スパイク駆動方式で包括的空間周波数特徴を効果的に学習する無注意アーキテクチャであるSpking Wavelet Transformer(SWformer)を提案する。
論文 参考訳(メタデータ) (2024-03-17T08:41:48Z) - ProtoHPE: Prototype-guided High-frequency Patch Enhancement for
Visible-Infrared Person Re-identification [16.634909655008254]
クロスモーダル相関した高周波成分は、全体像よりも波長、ポーズ、背景クラッタなどの変動の影響を受けない。
我々は2つのコア設計によるtextbf Prototype-guided textbf High- frequency textbfPatch textbfEnhancement (ProtoHPE) を提案する。
論文 参考訳(メタデータ) (2023-10-11T14:54:40Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。