Fugu-MT 論文翻訳(概要): Adversarial Feature Augmentation and Normalization for Visual Recognition

論文の概要: Adversarial Feature Augmentation and Normalization for Visual Recognition

arxiv url: http://arxiv.org/abs/2103.12171v1
Date: Mon, 22 Mar 2021 20:36:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-24 14:13:27.314694
Title: Adversarial Feature Augmentation and Normalization for Visual Recognition
Title（参考訳）: 視覚認知のための相反的特徴増強と正規化
Authors: Tianlong Chen, Yu Cheng, Zhe Gan, Jianfeng Wang, Lijuan Wang, Zhangyang Wang, Jingjing Liu
Abstract要約: 最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
参考スコア（独自算出の注目度）: 109.6834687220478
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in computer vision take advantage of adversarial data augmentation to ameliorate the generalization ability of classification models. Here, we present an effective and efficient alternative that advocates adversarial augmentation on intermediate feature embeddings, instead of relying on computationally-expensive pixel-level perturbations. We propose Adversarial Feature Augmentation and Normalization (A-FAN), which (i) first augments visual recognition models with adversarial features that integrate flexible scales of perturbation strengths, (ii) then extracts adversarial feature statistics from batch normalization, and re-injects them into clean features through feature normalization. We validate the proposed approach across diverse visual recognition tasks with representative backbone networks, including ResNets and EfficientNets for classification, Faster-RCNN for detection, and Deeplab V3+ for segmentation. Extensive experiments show that A-FAN yields consistent generalization improvement over strong baselines across various datasets for classification, detection and segmentation tasks, such as CIFAR-10, CIFAR-100, ImageNet, Pascal VOC2007, Pascal VOC2012, COCO2017, and Cityspaces. Comprehensive ablation studies and detailed analyses also demonstrate that adding perturbations to specific modules and layers of classification/detection/segmentation backbones yields optimal performance. Codes and pre-trained models will be made available at: https://github.com/VITA-Group/CV_A-FAN.
Abstract（参考訳）: 最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。ここでは, 画素レベルの摂動に頼らず, 中間的特徴埋め込みに対する対角的拡張を効果的かつ効果的に提案する。本稿では,まず,摂動強度のフレキシブルスケールを統合した視覚認識モデルを拡張し,次にバッチ正規化から逆特徴統計を抽出し,特徴正規化により清潔な特徴に再インジェクトする,逆特徴拡張・正規化(a-fan)を提案する。本稿では,ResNetsとEfficientNetsの分類,Faster-RCNNの検出,Deeplab V3+のセグメンテーションなど,代表的バックボーンネットワークを用いた多様な視覚認識タスクに対するアプローチを検証する。大規模な実験により、A-FANはCIFAR-10、CIFAR-100、ImageNet、Pascal VOC2007、Pascal VOC2012、COCO2017、Cityspacesといった様々なデータセットの分類、検出、セグメンテーションタスクに対して、強いベースラインに対して一貫した一般化の改善をもたらすことが示された。包括的アブレーション研究と詳細な分析により、特定のモジュールと分類/検出/セグメンテーションバックボーンの層に摂動を加えることが最適な性能をもたらすことが示されている。コードと事前訓練されたモデルは、https://github.com/VITA-Group/CV_A-FANで利用可能になる。

関連論文リスト

Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。 Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-03-23T03:21:33Z)
CAVE: Classifying Abnormalities in Video Capsule Endoscopy [0.1937002985471497]
本研究では,複雑な画像データセットの分類精度を向上させるために,アンサンブルに基づくアプローチを検討する。各モデルのユニークな特徴抽出機能を活用し、全体的な精度を向上させる。実験により、アンサンブルは難易度と不均衡度の高いクラス間で高い精度と堅牢性を達成することが示された。
論文参考訳（メタデータ） (2024-10-26T17:25:08Z)
Enhancing Fine-Grained Visual Recognition in the Low-Data Regime Through Feature Magnitude Regularization [23.78498670529746]
抽出した特徴量の均等分布を保証するために正規化手法を導入する。その明らかな単純さにもかかわらず、我々の手法は様々な細粒度視覚認識データセットに対して顕著な性能向上を示した。
論文参考訳（メタデータ） (2024-09-03T07:32:46Z)
Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。 FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文参考訳（メタデータ） (2024-03-26T06:04:50Z)
Unveiling Backbone Effects in CLIP: Exploring Representational Synergies and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文参考訳（メタデータ） (2023-12-22T03:01:41Z)
Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文参考訳（メタデータ） (2023-09-01T11:15:50Z)
Regularization Through Simultaneous Learning: A Case Study on Plant Classification [0.0]
本稿では,トランスファーラーニングとマルチタスクラーニングの原則に基づく正規化アプローチである同時学習を紹介する。我々は、ターゲットデータセットであるUFOP-HVDの補助データセットを活用し、カスタマイズされた損失関数でガイドされた同時分類を容易にする。興味深いことに,本手法は正規化のないモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2023-05-22T19:44:57Z)
Self-Supervised Hypergraph Transformer for Recommender Systems [25.07482350586435]
自己監督型ハイパーグラフ変換器(SHT) 自己監督型ハイパーグラフ変換器(SHT) ユーザ-テム相互作用グラフ上のデータ拡張のために,クロスビュー生成型自己教師型学習コンポーネントを提案する。
論文参考訳（メタデータ） (2022-07-28T18:40:30Z)
Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文参考訳（メタデータ） (2021-08-29T05:45:03Z)
Boosting the Generalization Capability in Cross-Domain Few-shot Learning via Noise-enhanced Supervised Autoencoder [23.860842627883187]
我々は、新しいノイズ強調型教師付きオートエンコーダ(NSAE)を用いて、特徴分布のより広範なバリエーションを捉えるようモデルに教える。 NSAEは入力を共同で再構築し、入力のラベルと再構成されたペアを予測することによってモデルを訓練する。また、NSAE構造を利用して、より適応性を高め、対象領域の分類性能を向上させる2段階の微調整手順を提案する。
論文参考訳（メタデータ） (2021-08-11T04:45:56Z)
No Fear of Heterogeneity: Classifier Calibration for Federated Learning with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文参考訳（メタデータ） (2021-06-09T12:02:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。