Fugu-MT 論文翻訳(概要): FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization

論文の概要: FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization

arxiv url: http://arxiv.org/abs/2203.12893v1
Date: Thu, 24 Mar 2022 07:26:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-25 14:36:25.362094
Title: FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization
Title（参考訳）: FAMLP: 周波数対応のMLPライクなドメイン一般化アーキテクチャ
Authors: Kecheng Zheng, Yang Cao, Kai Zhu, Ruijing Zhao, Zheng-Jun Zha
Abstract要約: 本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。 3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
参考スコア（独自算出の注目度）: 73.41395947275473
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: MLP-like models built entirely upon multi-layer perceptrons have recently been revisited, exhibiting the comparable performance with transformers. It is one of most promising architectures due to the excellent trade-off between network capability and efficiency in the large-scale recognition tasks. However, its generalization performance to heterogeneous tasks is inferior to other architectures (e.g., CNNs and transformers) due to the extensive retention of domain information. To address this problem, we propose a novel frequency-aware MLP architecture, in which the domain-specific features are filtered out in the transformed frequency domain, augmenting the invariant descriptor for label prediction. Specifically, we design an adaptive Fourier filter layer, in which a learnable frequency filter is utilized to adjust the amplitude distribution by optimizing both the real and imaginary parts. A low-rank enhancement module is further proposed to rectify the filtered features by adding the low-frequency components from SVD decomposition. Finally, a momentum update strategy is utilized to stabilize the optimization to fluctuation of model parameters and inputs by the output distillation with weighted historical states. To our best knowledge, we are the first to propose a MLP-like backbone for domain generalization. Extensive experiments on three benchmarks demonstrate significant generalization performance, outperforming the state-of-the-art methods by a margin of 3%, 4% and 9%, respectively.
Abstract（参考訳）: マルチ層パーセプトロン上に構築されたMLPライクなモデルは、最近再検討され、トランスフォーマーと同等の性能を示した。大規模認識タスクにおけるネットワーク能力と効率の優れたトレードオフのため、最も有望なアーキテクチャの1つである。しかし、ヘテロジニアスなタスクへの一般化性能は他のアーキテクチャ(例えばCNNやトランスフォーマー)と比べて、ドメイン情報の広範囲な保持により劣っている。そこで本研究では,領域固有の特徴を変換周波数領域にフィルタし,ラベル予測のための不変ディスクリプタを補強する,周波数対応mlpアーキテクチャを提案する。具体的には、学習可能な周波数フィルタを用いて、実部と虚部の両方を最適化して振幅分布を調整する適応的なフーリエフィルタ層を設計する。 SVD分解から低周波成分を加えることによりフィルタ特徴を補正する低ランク拡張モジュールも提案されている。最後に, 重み付き履歴状態の出力蒸留によるモデルパラメータと入力の変動に対する最適化を安定化するために, モーメント更新戦略を利用する。ドメイン一般化のための MLP に似たバックボーンを最初に提案する。 3つのベンチマークの大規模な実験は、最先端の手法をそれぞれ3%、4%、9%のマージンで上回り、大きな一般化性能を示した。

関連論文リスト

FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文参考訳（メタデータ） (2025-02-06T07:24:34Z)
FreqMixFormerV2: Lightweight Frequency-aware Mixed Transformer for Human Skeleton Action Recognition [9.963966059349731]
FreqMixForemrV2は、微妙で差別的なアクションを特定するために、周波数対応のMixed Transformer(FreqMixFormer)上に構築されている。提案手法は, 精度と効率のバランスが良く, パラメータの60%しか持たない最先端の手法より優れている。
論文参考訳（メタデータ） (2024-12-29T23:52:40Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture [46.266960248570086]
本研究は,効率的な特徴集約のための複雑局所的注意機構を導入することで,自己注意機構の二次的複雑さに取り組む。また,各チャネルの注目重量分布を適応的に調整するパラメータフリーチャネル温度適応機構を導入する。我々は,PointMTが性能と精度の最適なバランスを維持しつつ,最先端手法に匹敵する性能を実現することを示す。
論文参考訳（メタデータ） (2024-08-10T10:16:03Z)
Frequency-domain MLPs are More Effective Learners in Time Series Forecasting [67.60443290781988]
時系列予測は、金融、交通、エネルギー、医療など、さまざまな産業領域において重要な役割を果たしてきた。最多ベースの予測手法は、ポイントワイドマッピングと情報のボトルネックに悩まされる。本稿では、時系列予測のための周波数領域上に構築された、シンプルで効果的なアーキテクチャであるFreTSを提案する。
論文参考訳（メタデータ） (2023-11-10T17:05:13Z)
Exploring Frequency-Inspired Optimization in Transformer for Efficient Single Image Super-Resolution [32.29219284419944]
クロスリファインメント適応型特徴変調トランス(CRAFT) CRAFTの効率向上を目的とした周波数誘導後量子化(PTQ)手法を提案する。実験結果から, CRAFTは, 完全精度と量子化のシナリオにおいて, 現在の最先端手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-08-09T15:38:36Z)
Fourier Test-time Adaptation with Multi-level Consistency for Robust Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。 FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文参考訳（メタデータ） (2023-06-05T02:29:38Z)
Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文参考訳（メタデータ） (2022-11-26T01:56:05Z)
Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文参考訳（メタデータ） (2022-05-25T17:59:54Z)
Deep Frequency Filtering for Domain Generalization [55.66498461438285]
Deep Neural Networks(DNN)は、学習プロセスにおいて、いくつかの周波数成分を優先する。本稿では、ドメイン一般化可能な特徴を学習するためのDeep Frequency Filtering (DFF)を提案する。提案したDFFをベースラインに適用すると,ドメインの一般化タスクにおける最先端の手法よりも優れることを示す。
論文参考訳（メタデータ） (2022-03-23T05:19:06Z)
Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文参考訳（メタデータ） (2021-07-01T17:58:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。