論文の概要: ALOFT: A Lightweight MLP-like Architecture with Dynamic Low-frequency
Transform for Domain Generalization
- arxiv url: http://arxiv.org/abs/2303.11674v1
- Date: Tue, 21 Mar 2023 08:36:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 16:03:31.353597
- Title: ALOFT: A Lightweight MLP-like Architecture with Dynamic Low-frequency
Transform for Domain Generalization
- Title(参考訳): ALOFT:ドメイン一般化のための動的低周波変換を用いた軽量MLP様アーキテクチャ
- Authors: Jintao Guo, Na Wang, Lei Qi, Yinghuan Shi
- Abstract要約: ドメイン・ドメイン(DG)は、再トレーニングすることなく、複数のソース・ドメインを利用する未確認のターゲット・ドメインに適切に一般化するモデルを学ぶことを目的としています。
既存のDG作品の多くは畳み込みニューラルネットワーク(CNN)に基づいている。
- 参考スコア(独自算出の注目度): 15.057335610188545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain generalization (DG) aims to learn a model that generalizes well to
unseen target domains utilizing multiple source domains without re-training.
Most existing DG works are based on convolutional neural networks (CNNs).
However, the local operation of the convolution kernel makes the model focus
too much on local representations (e.g., texture), which inherently causes the
model more prone to overfit to the source domains and hampers its
generalization ability. Recently, several MLP-based methods have achieved
promising results in supervised learning tasks by learning global interactions
among different patches of the image. Inspired by this, in this paper, we first
analyze the difference between CNN and MLP methods in DG and find that MLP
methods exhibit a better generalization ability because they can better capture
the global representations (e.g., structure) than CNN methods. Then, based on a
recent lightweight MLP method, we obtain a strong baseline that outperforms
most state-of-the-art CNN-based methods. The baseline can learn global
structure representations with a filter to suppress structure irrelevant
information in the frequency space. Moreover, we propose a dynAmic
LOw-Frequency spectrum Transform (ALOFT) that can perturb local texture
features while preserving global structure features, thus enabling the filter
to remove structure-irrelevant information sufficiently. Extensive experiments
on four benchmarks have demonstrated that our method can achieve great
performance improvement with a small number of parameters compared to SOTA
CNN-based DG methods. Our code is available at
https://github.com/lingeringlight/ALOFT/.
- Abstract(参考訳): ドメイン一般化(Domain Generalization, DG)は、複数のソースドメインを再学習することなく、未確認のターゲットドメインに適切に一般化するモデルを学習することを目的としている。
既存のDGの作業の多くは畳み込みニューラルネットワーク(CNN)に基づいている。
しかし、畳み込みカーネルの局所的な操作により、モデルは局所的な表現(例えばテクスチャ)に重きを置いてしまうため、本質的にモデルがソース領域に過度に適合しやすくなり、一般化能力を損なう。
近年,画像の異なるパッチ間でのグローバルインタラクションを学習することで,教師あり学習タスクにおいて有望な結果が得られている。
そこで本研究では,まずDGにおけるCNN法とMLP法の違いを分析し,MPP法の方がCNN法よりもグローバル表現(構造)をよりよく把握できるので,より優れた一般化能力を示すことを示す。
そして、最近の軽量MLP法に基づいて、最先端のCNN方式よりも優れた強力なベースラインを得る。
ベースラインはフィルタを用いてグローバルな構造表現を学習し、周波数空間の無関係な情報を抑制する。
さらに,大域的な構造特徴を維持しつつ,局所的なテクスチャ特徴を摂動させることができる動的低周波スペクトル変換(aloft)を提案する。
提案手法は,SOTA CNNに基づくDG法と比較して,少数のパラメータで高い性能向上を達成できることを示した。
私たちのコードはhttps://github.com/lingeringlight/ALOFT/で利用可能です。
関連論文リスト
- Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Keypoint-Augmented Self-Supervised Learning for Medical Image
Segmentation with Limited Annotation [21.203307064937142]
本稿では,短距離と長距離の両方の自己注意を保った表現を抽出するキーポイント拡張融合層を提案する。
特に,長距離空間の自己意識を学習する追加入力を組み込むことで,CNN機能マップを複数スケールで拡張する。
提案手法は,より堅牢な自己アテンションを生成することにより,既存のSSLメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-10-02T22:31:30Z) - CNN Feature Map Augmentation for Single-Source Domain Generalization [6.053629733936548]
ドメイン・ジェネリゼーション(DG)はここ数年で大きな注目を集めている。
DGの目標は、トレーニング中に利用可能なものと異なるデータ分散を提示した場合、引き続き正常に機能するモデルを作成することだ。
単一ソースDG画像分類設定における畳み込みニューラルネットワークアーキテクチャの代替正則化手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T08:48:17Z) - Improving Convolutional Neural Networks for Fault Diagnosis by
Assimilating Global Features [0.0]
本稿では, 局所的・グローバル的特徴を考慮した局所的CNNアーキテクチャを提案する。
提案したLG-CNNは,モデル複雑性を大幅に増大させることなく,故障診断性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-03T16:49:16Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Video Salient Object Detection via Adaptive Local-Global Refinement [7.723369608197167]
ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。
vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。
重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
論文 参考訳(メタデータ) (2021-04-29T14:14:11Z) - Learning to Generalize Unseen Domains via Memory-based Multi-Source
Meta-Learning for Person Re-Identification [59.326456778057384]
本稿では,メモリベースのマルチソースメタラーニングフレームワークを提案する。
また,メタテスト機能を多様化するメタバッチ正規化層(MetaBN)を提案する。
実験により、M$3$Lは、目に見えない領域に対するモデルの一般化能力を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2020-12-01T11:38:16Z) - Learning Meta Face Recognition in Unseen Domains [74.69681594452125]
メタ顔認識(MFR)というメタラーニングを用いた新しい顔認識手法を提案する。
MFRは、メタ最適化目標を用いてソース/ターゲットドメインシフトを合成する。
一般化顔認識評価のためのベンチマークを2つ提案する。
論文 参考訳(メタデータ) (2020-03-17T14:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。