論文の概要: FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization
- arxiv url: http://arxiv.org/abs/2203.12893v1
- Date: Thu, 24 Mar 2022 07:26:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 14:36:25.362094
- Title: FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization
- Title(参考訳): FAMLP: 周波数対応のMLPライクなドメイン一般化アーキテクチャ
- Authors: Kecheng Zheng, Yang Cao, Kai Zhu, Ruijing Zhao, Zheng-Jun Zha
- Abstract要約: 本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
- 参考スコア(独自算出の注目度): 73.41395947275473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MLP-like models built entirely upon multi-layer perceptrons have recently
been revisited, exhibiting the comparable performance with transformers. It is
one of most promising architectures due to the excellent trade-off between
network capability and efficiency in the large-scale recognition tasks.
However, its generalization performance to heterogeneous tasks is inferior to
other architectures (e.g., CNNs and transformers) due to the extensive
retention of domain information. To address this problem, we propose a novel
frequency-aware MLP architecture, in which the domain-specific features are
filtered out in the transformed frequency domain, augmenting the invariant
descriptor for label prediction. Specifically, we design an adaptive Fourier
filter layer, in which a learnable frequency filter is utilized to adjust the
amplitude distribution by optimizing both the real and imaginary parts. A
low-rank enhancement module is further proposed to rectify the filtered
features by adding the low-frequency components from SVD decomposition.
Finally, a momentum update strategy is utilized to stabilize the optimization
to fluctuation of model parameters and inputs by the output distillation with
weighted historical states. To our best knowledge, we are the first to propose
a MLP-like backbone for domain generalization. Extensive experiments on three
benchmarks demonstrate significant generalization performance, outperforming
the state-of-the-art methods by a margin of 3%, 4% and 9%, respectively.
- Abstract(参考訳): マルチ層パーセプトロン上に構築されたMLPライクなモデルは、最近再検討され、トランスフォーマーと同等の性能を示した。
大規模認識タスクにおけるネットワーク能力と効率の優れたトレードオフのため、最も有望なアーキテクチャの1つである。
しかし、ヘテロジニアスなタスクへの一般化性能は他のアーキテクチャ(例えばCNNやトランスフォーマー)と比べて、ドメイン情報の広範囲な保持により劣っている。
そこで本研究では,領域固有の特徴を変換周波数領域にフィルタし,ラベル予測のための不変ディスクリプタを補強する,周波数対応mlpアーキテクチャを提案する。
具体的には、学習可能な周波数フィルタを用いて、実部と虚部の両方を最適化して振幅分布を調整する適応的なフーリエフィルタ層を設計する。
SVD分解から低周波成分を加えることによりフィルタ特徴を補正する低ランク拡張モジュールも提案されている。
最後に, 重み付き履歴状態の出力蒸留によるモデルパラメータと入力の変動に対する最適化を安定化するために, モーメント更新戦略を利用する。
ドメイン一般化のための MLP に似たバックボーンを最初に提案する。
3つのベンチマークの大規模な実験は、最先端の手法をそれぞれ3%、4%、9%のマージンで上回り、大きな一般化性能を示した。
関連論文リスト
- FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。
本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。
人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。
本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - FreqMixFormerV2: Lightweight Frequency-aware Mixed Transformer for Human Skeleton Action Recognition [9.963966059349731]
FreqMixForemrV2は、微妙で差別的なアクションを特定するために、周波数対応のMixed Transformer(FreqMixFormer)上に構築されている。
提案手法は, 精度と効率のバランスが良く, パラメータの60%しか持たない最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-12-29T23:52:40Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Exploring Frequency-Inspired Optimization in Transformer for Efficient Single Image Super-Resolution [32.29219284419944]
クロスリファインメント適応型特徴変調トランス(CRAFT)
CRAFTの効率向上を目的とした周波数誘導後量子化(PTQ)手法を提案する。
以上の結果より, CRAFTは現状の方法よりも優れていることが示唆された。
論文 参考訳(メタデータ) (2023-08-09T15:38:36Z) - Fourier Test-time Adaptation with Multi-level Consistency for Robust
Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。
FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。
異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文 参考訳(メタデータ) (2023-06-05T02:29:38Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。