論文の概要: Dynamic Spectrum Mixer for Visual Recognition
- arxiv url: http://arxiv.org/abs/2309.06721v2
- Date: Fri, 15 Sep 2023 08:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 11:37:41.476075
- Title: Dynamic Spectrum Mixer for Visual Recognition
- Title(参考訳): 動的スペクトルミキサーによる視覚認識
- Authors: Zhiqiang Hu, Tao Yu
- Abstract要約: 動的スペクトルミキサー (DSM) という,コンテンツ適応型だが計算効率のよい構造を提案する。
DSMはコサイン変換を用いて周波数領域におけるトークンの相互作用を表す。
ログ線形複雑性で長期空間依存を学習することができる。
- 参考スコア(独自算出の注目度): 17.180863898764194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, MLP-based vision backbones have achieved promising performance in
several visual recognition tasks. However, the existing MLP-based methods
directly aggregate tokens with static weights, leaving the adaptability to
different images untouched. Moreover, Recent research demonstrates that
MLP-Transformer is great at creating long-range dependencies but ineffective at
catching high frequencies that primarily transmit local information, which
prevents it from applying to the downstream dense prediction tasks, such as
semantic segmentation. To address these challenges, we propose a
content-adaptive yet computationally efficient structure, dubbed Dynamic
Spectrum Mixer (DSM). The DSM represents token interactions in the frequency
domain by employing the Discrete Cosine Transform, which can learn long-term
spatial dependencies with log-linear complexity. Furthermore, a dynamic
spectrum weight generation layer is proposed as the spectrum bands selector,
which could emphasize the informative frequency bands while diminishing others.
To this end, the technique can efficiently learn detailed features from visual
input that contains both high- and low-frequency information. Extensive
experiments show that DSM is a powerful and adaptable backbone for a range of
visual recognition tasks. Particularly, DSM outperforms previous
transformer-based and MLP-based models, on image classification, object
detection, and semantic segmentation tasks, such as 83.8 \% top-1 accuracy on
ImageNet, and 49.9 \% mIoU on ADE20K.
- Abstract(参考訳): 近年、MLPベースの視覚バックボーンは、いくつかの視覚認識タスクにおいて有望な性能を達成している。
しかし、既存のMLPベースのメソッドはトークンを直接静的な重み付けで集約し、異なる画像への適応性を残している。
さらに,近年の研究では,mlp-transformerは長距離依存性の生成に優れるが,局所情報を主に送信する高周波数の捕捉には効果がなく,セマンティクスセグメンテーションなどの下流の密集した予測タスクに適用できないことが示されている。
これらの課題に対処するために、動的スペクトルミキサー (DSM) と呼ばれるコンテンツ適応型だが計算効率の良い構造を提案する。
DSMは離散コサイン変換を用いて周波数領域におけるトークンの相互作用を表現する。
さらに、スペクトル帯域選択層として動的スペクトル重み生成層が提案されており、他の周波数帯域を減少させながら、有益な周波数帯域を強調することができる。
これにより、高周波数情報と低周波情報の両方を含む視覚入力から詳細な特徴を効率的に学習することができる。
大規模な実験により、DSMは様々な視覚認識タスクのための強力で適応可能なバックボーンであることが示された。
特に、DSMは画像分類、オブジェクト検出、セマンティックセグメンテーションタスクにおいて、ImageNetの83.8 \%、ADE20Kの49.9 \% mIoUなど、以前のトランスフォーマーベースモデルとMLPベースのモデルより優れている。
関連論文リスト
- DynaSeg: A Deep Dynamic Fusion Method for Unsupervised Image Segmentation Incorporating Feature Similarity and Spatial Continuity [0.5755004576310334]
我々は、革新的な教師なしイメージセグメンテーションアプローチであるDynaSegを紹介する。
従来の方法とは異なり、DynaSegは画像の特徴に柔軟に対応する動的重み付け方式を採用している。
DynaSegは、予測されたクラスタ数が1つに収束する可能性のある、過小評価の失敗を防ぐ。
論文 参考訳(メタデータ) (2024-05-09T00:30:45Z) - Revisiting Multimodal Emotion Recognition in Conversation from the Perspective of Graph Spectrum [13.81570624162769]
グラフスペクトルに基づくマルチモーダル一貫性と相補的協調学習フレームワークGS-MCCを提案する。
まず、GS-MCCは、対話関係をモデル化するマルチモーダル相互作用グラフを構築するためにスライディングウィンドウを使用する。
そして、GS-MCCはコントラスト学習を用いて、相補性と一貫性のあるセマンティック・コラボレーションを反映した自己教師付き信号を構築する。
論文 参考訳(メタデータ) (2024-04-27T10:47:07Z) - SpectralMamba: Efficient Mamba for Hyperspectral Image Classification [39.18999103115206]
リカレントニューラルネットワークとトランスフォーマーは、ハイパースペクトル(HS)イメージングにおけるほとんどの応用を支配している。
我々は、HS画像分類のための効率的なディープラーニングフレームワークを組み込んだ新しい状態空間モデルであるSpectralMambaを提案する。
SpectralMambaは、パフォーマンスと効率の両面から、驚くほど有望な勝利を生み出している。
論文 参考訳(メタデータ) (2024-04-12T14:12:03Z) - DiffSpectralNet : Unveiling the Potential of Diffusion Models for
Hyperspectral Image Classification [6.521187080027966]
我々は拡散と変圧器技術を組み合わせたDiffSpectralNetと呼ばれる新しいネットワークを提案する。
まず,拡散モデルに基づく教師なし学習フレームワークを用いて,高レベル・低レベルのスペクトル空間的特徴を抽出する。
この拡散法はスペクトル空間の特徴を多様かつ有意義に抽出し,HSI分類の改善につながる。
論文 参考訳(メタデータ) (2023-10-29T15:26:37Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Hyperspectral Image Denoising via Self-Modulating Convolutional Neural
Networks [15.700048595212051]
相関スペクトルと空間情報を利用した自己変調畳み込みニューラルネットワークを提案する。
モデルの中心には新しいブロックがあり、隣り合うスペクトルデータに基づいて、ネットワークが適応的に特徴を変換することができる。
合成データと実データの両方の実験解析により,提案したSM-CNNは,他の最先端HSI復調法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-15T06:57:43Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - SpectralFormer: Rethinking Hyperspectral Image Classification with
Transformers [91.09957836250209]
ハイパースペクトル(HS)画像は、ほぼ連続したスペクトル情報によって特徴づけられる。
CNNは、HS画像分類において強力な特徴抽出器であることが証明されている。
我々は、HS画像分類のためのulSpectralFormerと呼ばれる新しいバックボーンネットワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T02:59:21Z) - Fourier Features Let Networks Learn High Frequency Functions in Low
Dimensional Domains [69.62456877209304]
単純なフーリエ特徴写像を通して入力点を渡すことで、多層パーセプトロンが高周波関数を学習できることを示す。
結果は、最先端の結果を達成するコンピュータビジョンとグラフィックの進歩に光を当てた。
論文 参考訳(メタデータ) (2020-06-18T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。