論文の概要: SIEFormer: Spectral-Interpretable and -Enhanced Transformer for Generalized Category Discovery
- arxiv url: http://arxiv.org/abs/2602.13067v1
- Date: Fri, 13 Feb 2026 16:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.031219
- Title: SIEFormer: Spectral-Interpretable and -Enhanced Transformer for Generalized Category Discovery
- Title(参考訳): SIEFormer: 一般化カテゴリー発見のためのスペクトル解釈および拡張変換器
- Authors: Chunming Li, Shidong Wang, Tong Xin, Haofeng Zhang,
- Abstract要約: SIEFormerは2つのメインブランチから構成されており、それぞれがViTの暗黙的および明示的なスペクトルの観点に対応する。
暗黙の枝は、トークンの局所構造相関をモデル化するために異なるタイプのグラフラプラシアンを使うことを実現する。
一方、明示的なブランチでは、トークン間のグローバル依存関係を学習するManeuverable Filtering Layer(MFL)が導入されている。
- 参考スコア(独自算出の注目度): 14.288193104482986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel approach, Spectral-Interpretable and -Enhanced Transformer (SIEFormer), which leverages spectral analysis to reinterpret the attention mechanism within Vision Transformer (ViT) and enhance feature adaptability, with particular emphasis on challenging Generalized Category Discovery (GCD) tasks. The proposed SIEFormer is composed of two main branches, each corresponding to an implicit and explicit spectral perspective of the ViT, enabling joint optimization. The implicit branch realizes the use of different types of graph Laplacians to model the local structure correlations of tokens, along with a novel Band-adaptive Filter (BaF) layer that can flexibly perform both band-pass and band-reject filtering. The explicit branch, on the other hand, introduces a Maneuverable Filtering Layer (MFL) that learns global dependencies among tokens by applying the Fourier transform to the input ``value" features, modulating the transformed signal with a set of learnable parameters in the frequency domain, and then performing an inverse Fourier transform to obtain the enhanced features. Extensive experiments reveal state-of-the-art performance on multiple image recognition datasets, reaffirming the superiority of our approach through ablation studies and visualizations.
- Abstract(参考訳): 本稿では、スペクトル解析を利用してViT(Vision Transformer)内の注意機構を再解釈し、特徴適応性を高める新しい手法であるSpectral-Interpretable and-Enhanced Transformer(SIEFormer)を提案する。
提案したSIEFormerは2つのメインブランチで構成されており、それぞれがViTの暗黙的および明示的なスペクトル的視点に対応し、共同最適化を可能にする。
暗黙の枝は、異なるタイプのグラフラプラシアンを用いてトークンの局所構造相関をモデル化し、バンドパスとバンドリジェクトの両方を柔軟に実行可能な新しいバンド適応フィルタ(BaF)層を実現する。
一方、明示的な分岐はManeuverable Filtering Layer (MFL)を導入し、入力の ``value" 特徴にフーリエ変換を適用し、周波数領域で学習可能なパラメータのセットで変換信号を変調し、次に逆フーリエ変換を行い、拡張された特徴を得る。
大規模な実験により、複数の画像認識データセット上での最先端のパフォーマンスが明らかとなり、アブレーション研究と可視化を通して、我々のアプローチの優位性を再確認した。
関連論文リスト
- Hyb-KAN ViT: Hybrid Kolmogorov-Arnold Networks Augmented Vision Transformer [0.0]
本研究では、ビジョントランスフォーマー(ViT)におけるマルチアルノルドパーセプトロン(MLP)固有の制限に対処するため、Hybrid Kolmogorov-Arnold Network(KAN)-T(Hyb-KAN ViT)を導入する。
Hyb-KAN ViTはウェーブレットベースのスペクトル分解とスプライン最適化活性化関数を統合する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-05-07T19:13:17Z) - DiffFormer: a Differential Spatial-Spectral Transformer for Hyperspectral Image Classification [3.271106943956333]
超スペクトル画像分類(HSIC)は、高次元データをスペクトル情報と空間情報で分析する可能性から注目されている。
本稿では、スペクトル冗長性や空間不連続性といったHSICの固有の課題に対処するために、差分空間スペクトル変換器(DiffFormer)を提案する。
ベンチマークハイパースペクトルデータセットの実験は、分類精度、計算効率、一般化可能性の観点から、DiffFormerの優位性を示す。
論文 参考訳(メタデータ) (2024-12-23T07:21:41Z) - HoloNets: Spectral Convolutions do extend to Directed Graphs [59.851175771106625]
従来の知恵は、スペクトル畳み込みネットワークは無向グラフ上にしか展開できないと規定している。
ここでは、このグラフフーリエ変換への伝統的な依存が超フルであることを示す。
本稿では,新たに開発されたフィルタの周波数応答解釈を行い,フィルタ表現に使用するベースの影響を調査し,ネットワークを基盤とする特性演算子との相互作用について議論する。
論文 参考訳(メタデータ) (2023-10-03T17:42:09Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Fourier Test-time Adaptation with Multi-level Consistency for Robust
Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。
FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。
異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文 参考訳(メタデータ) (2023-06-05T02:29:38Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Investigating Expressiveness of Transformer in Spectral Domain for
Graphs [6.092217185687028]
変圧器の領域における空間領域とスペクトル領域の関連性について検討し,その証明を行う。
本研究では,空間空間における注目に類似したグラフスペクトル全体に対する注目を実現するためのフレームワークFeTAを提案する。
論文 参考訳(メタデータ) (2022-01-23T18:03:22Z) - SpectralFormer: Rethinking Hyperspectral Image Classification with
Transformers [91.09957836250209]
ハイパースペクトル(HS)画像は、ほぼ連続したスペクトル情報によって特徴づけられる。
CNNは、HS画像分類において強力な特徴抽出器であることが証明されている。
我々は、HS画像分類のためのulSpectralFormerと呼ばれる新しいバックボーンネットワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T02:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。