論文の概要: Spectral-Adaptive Modulation Networks for Visual Perception
- arxiv url: http://arxiv.org/abs/2503.23947v1
- Date: Mon, 31 Mar 2025 10:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.352303
- Title: Spectral-Adaptive Modulation Networks for Visual Perception
- Title(参考訳): 視覚知覚のためのスペクトル適応変調ネットワーク
- Authors: Guhnoo Yun, Juhan Yoo, Kijung Kim, Jeongho Lee, Paul Hongsuck Seo, Dong Hwan Kim,
- Abstract要約: グラフスペクトル分析を用いて、2次元畳み込みと自己意図の周波数応答を理論的にシミュレートし比較する。
以上の結果から,ウィンドウサイズによって変調されたノード接続が,スペクトル関数形成の鍵となる要因であることが判明した。
SPAMに基づいて,新しいビジョンバックボーンとしてSPANetV2を開発した。
- 参考スコア(独自算出の注目度): 9.912286808419205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown that 2D convolution and self-attention exhibit distinct spectral behaviors, and optimizing their spectral properties can enhance vision model performance. However, theoretical analyses remain limited in explaining why 2D convolution is more effective in high-pass filtering than self-attention and why larger kernels favor shape bias, akin to self-attention. In this paper, we employ graph spectral analysis to theoretically simulate and compare the frequency responses of 2D convolution and self-attention within a unified framework. Our results corroborate previous empirical findings and reveal that node connectivity, modulated by window size, is a key factor in shaping spectral functions. Leveraging this insight, we introduce a \textit{spectral-adaptive modulation} (SPAM) mixer, which processes visual features in a spectral-adaptive manner using multi-scale convolutional kernels and a spectral re-scaling mechanism to refine spectral components. Based on SPAM, we develop SPANetV2 as a novel vision backbone. Extensive experiments demonstrate that SPANetV2 outperforms state-of-the-art models across multiple vision tasks, including ImageNet-1K classification, COCO object detection, and ADE20K semantic segmentation.
- Abstract(参考訳): 近年の研究では、2次元の畳み込みと自己アテンションが異なるスペクトル挙動を示し、スペクトル特性の最適化は視覚モデルの性能を向上させることが示されている。
しかし、理論解析は、なぜ2次元畳み込みが自己アテンションよりもハイパスフィルタリングに効果があるのか、また、より大きなカーネルが自己アテンションに似た形状バイアスを好むのかを説明できる。
本稿では,2次元畳み込みと自己認識の周波数応答を理論的にシミュレートし,比較するために,グラフスペクトル解析を用いる。
以上の結果から,ウィンドウサイズによって変調されたノード接続が,スペクトル関数形成の鍵となる要因であることが判明した。
この知見を生かして、多スケールの畳み込みカーネルとスペクトル成分を洗練するためのスペクトル再スケーリング機構を用いて、スペクトル適応方式で視覚特徴を処理する「textit{spectral-adaptive modulation} (SPAM)」ミキサーを導入する。
SPAMに基づいて,新しいビジョンバックボーンとしてSPANetV2を開発した。
大規模な実験により、SPANetV2はImageNet-1K分類、COCOオブジェクト検出、ADE20Kセマンティックセグメンテーションなど、複数のビジョンタスクにおける最先端モデルよりも優れていることが示された。
関連論文リスト
- CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis [75.25966323298003]
スペクトルイメージングは、医療や都市景観の理解など、様々な領域で有望な応用を提供する。
スペクトルカメラのチャネル次元と捕獲波長のばらつきは、AI駆動方式の開発を妨げる。
我々は、$textbfC$amera-$textbfA$gnostic $textbfR$esupervised $textbfL$のモデルである$textbfCARL$を紹介した。
論文 参考訳(メタデータ) (2025-04-27T13:06:40Z) - FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。
本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。
人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。
本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - Approaching Deep Learning through the Spectral Dynamics of Weights [41.948042468042374]
重みのスペクトル力学 -- 最適化中の特異値とベクトルの振る舞い -- は、ディープラーニングにおけるいくつかの現象を明確にし、統一する。
ConvNetによる画像分類,UNetsによる画像生成,LSTMによる音声認識,Transformersによる言語モデリングなど,さまざまな実験における最適化における一貫したバイアスを同定する。
論文 参考訳(メタデータ) (2024-08-21T17:48:01Z) - GrassNet: State Space Model Meets Graph Neural Network [57.62885438406724]
Graph State Space Network (GrassNet)は、任意のグラフスペクトルフィルタを設計するためのシンプルで効果的なスキームを提供する理論的なサポートを持つ、新しいグラフニューラルネットワークである。
我々の知る限り、我々の研究はグラフGNNスペクトルフィルタの設計にSSMを使った最初のものである。
9つの公開ベンチマークでの大規模な実験により、GrassNetは現実世界のグラフモデリングタスクにおいて優れたパフォーマンスを達成することが明らかになった。
論文 参考訳(メタデータ) (2024-08-16T07:33:58Z) - Spectral Graph Reasoning Network for Hyperspectral Image Classification [0.43512163406551996]
畳み込みニューラルネットワーク(CNN)は、ハイパースペクトル画像(HSI)分類において顕著な性能を達成した。
本稿では、2つの重要なモジュールからなるスペクトルグラフ推論ネットワーク(SGR)学習フレームワークを提案する。
2つのHSIデータセットの実験により、提案したアーキテクチャが分類精度を大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2024-07-02T20:29:23Z) - Coarse-Fine Spectral-Aware Deformable Convolution For Hyperspectral Image Reconstruction [15.537910100051866]
Coded Aperture Snapshot Spectral Imaging (CASSI) の逆問題について検討する。
粗面スペクトル対応変形性畳み込みネットワーク(CFSDCN)を提案する。
我々のCFSDCNは、シミュレーションされたHSIデータセットと実際のHSIデータセットの両方において、従来の最先端(SOTA)メソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-06-18T15:15:12Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - SpectralGPT: Spectral Remote Sensing Foundation Model [60.023956954916414]
SpectralGPTという名前のユニバーサルRS基盤モデルは、新しい3D生成事前学習変換器(GPT)を用いてスペクトルRS画像を処理するために構築されている。
既存の基礎モデルと比較して、SpectralGPTは、様々なサイズ、解像度、時系列、領域をプログレッシブトレーニング形式で対応し、広範なRSビッグデータのフル活用を可能にする。
我々の評価では、事前訓練されたスペクトルGPTモデルによる顕著な性能向上が強調され、地球科学分野におけるスペクトルRSビッグデータ応用の進展に有意な可能性を示唆している。
論文 参考訳(メタデータ) (2023-11-13T07:09:30Z) - ESSAformer: Efficient Transformer for Hyperspectral Image
Super-resolution [76.7408734079706]
単一ハイパースペクトル像超解像(単一HSI-SR)は、低分解能観測から高分解能ハイパースペクトル像を復元することを目的としている。
本稿では,1つのHSI-SRの繰り返し精製構造を持つESSA注目組込みトランスフォーマネットワークであるESSAformerを提案する。
論文 参考訳(メタデータ) (2023-07-26T07:45:14Z) - Unsupervised Spectral Demosaicing with Lightweight Spectral Attention
Networks [6.7433262627741914]
本稿では、教師なしで訓練された深層学習に基づくスペクトル復調手法を提案する。
提案手法は, 空間歪み抑制, スペクトル忠実度, 頑健性, 計算コストの観点から, 従来の教師なし手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-05T02:45:44Z) - Boosting the Generalization Ability for Hyperspectral Image Classification using Spectral-spatial Axial Aggregation Transformer [14.594398447576188]
ハイパースペクトル画像分類(HSIC)タスクでは、最も一般的に使われているモデル検証パラダイムは、画素単位のランダムサンプリングによってトレーニング・テストデータセットを分割することである。
私たちの実験では、トレーニングとテストデータセットが多くの情報を共有しているため、高い精度が達成できたことが分かりました。
本稿では,データセット分割間の一般化を保ったスペクトル-空間軸アグリゲーション変換器モデルSaaFormerを提案する。
論文 参考訳(メタデータ) (2023-06-29T07:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。