論文の概要: TRIX- Trading Adversarial Fairness via Mixed Adversarial Training
- arxiv url: http://arxiv.org/abs/2507.07768v1
- Date: Thu, 10 Jul 2025 13:53:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.42417
- Title: TRIX- Trading Adversarial Fairness via Mixed Adversarial Training
- Title(参考訳): TRIX-Trending Adversarial Fairness by Mixed Adversarial Training
- Authors: Tejaswini Medi, Steffen Jung, Margret Keuper,
- Abstract要約: 敵訓練(Adversarial Training、AT)は、敵の例に対する広く採用されている防御である。
既存のアプローチでは、クラスレベルでの脆弱性の相違を見越して、すべてのクラスに統一的なトレーニングの目標を適用するのが一般的である。
我々は、より弱いターゲットの敵を強力なクラスに適応的に割り当てる機能認識型敵訓練フレームワークTRIXを紹介する。
- 参考スコア(独自算出の注目度): 16.10247754923311
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Adversarial Training (AT) is a widely adopted defense against adversarial examples. However, existing approaches typically apply a uniform training objective across all classes, overlooking disparities in class-wise vulnerability. This results in adversarial unfairness: classes with well distinguishable features (strong classes) tend to become more robust, while classes with overlapping or shared features(weak classes) remain disproportionately susceptible to adversarial attacks. We observe that strong classes do not require strong adversaries during training, as their non-robust features are quickly suppressed. In contrast, weak classes benefit from stronger adversaries to effectively reduce their vulnerabilities. Motivated by this, we introduce TRIX, a feature-aware adversarial training framework that adaptively assigns weaker targeted adversaries to strong classes, promoting feature diversity via uniformly sampled targets, and stronger untargeted adversaries to weak classes, enhancing their focused robustness. TRIX further incorporates per-class loss weighting and perturbation strength adjustments, building on prior work, to emphasize weak classes during the optimization. Comprehensive experiments on standard image classification benchmarks, including evaluations under strong attacks such as PGD and AutoAttack, demonstrate that TRIX significantly improves worst-case class accuracy on both clean and adversarial data, reducing inter-class robustness disparities, and preserves overall accuracy. Our results highlight TRIX as a practical step toward fair and effective adversarial defense.
- Abstract(参考訳): 敵訓練(Adversarial Training、AT)は、敵の例に対する広く採用されている防御である。
しかし、既存のアプローチは通常、クラスレベルでの脆弱性の相違を見越して、すべてのクラスに統一的なトレーニングの目標を適用します。
優れた特徴(強いクラス)を持つクラスはより堅牢になる傾向にあり、重複または共有された特徴(弱いクラス)を持つクラスは、敵の攻撃に対して不当に影響を受けやすいままである。
非破壊的な特徴が急速に抑制されるため、強いクラスは訓練中に強い敵を必要としない。
対照的に、弱いクラスはより強力な敵の恩恵を受け、その脆弱性を効果的に減らします。
TRIXは、より弱いターゲットの敵を強いクラスに適応的に割り当て、一様にサンプリングされたターゲットを介して特徴の多様性を促進し、より強力なターゲットの敵を弱いクラスに誘導し、焦点を絞ったロバスト性を向上する特徴認識型敵訓練フレームワークである。
TRIXはさらに、クラスごとの損失重み付けと摂動強度調整を導入し、事前作業に基づいて最適化中に弱いクラスを強調する。
PGDやAutoAttackのような強力な攻撃による評価を含む標準画像分類ベンチマークに関する総合的な実験は、TRIXがクリーンデータと逆データの両方において最悪のクラス精度を著しく改善し、クラス間の堅牢性格差を低減し、全体的な精度を維持することを実証している。
本研究は, TRIXを公正かつ効果的な敵防衛に向けた実践的なステップとして強調した。
関連論文リスト
- FAIR-TAT: Improving Model Fairness Using Targeted Adversarial Training [16.10247754923311]
FAIR-TAT(Fair Targeted Adversarial Training)と呼ばれる新しいアプローチを導入する。
敵の対人訓練(標的外攻撃ではなく)に標的の対人攻撃を使用することで、敵の対人公正性に関してより有利なトレードオフが可能になることを示す。
論文 参考訳(メタデータ) (2024-10-30T15:58:03Z) - Improving Adversarial Robustness with Self-Paced Hard-Class Pair
Reweighting [5.084323778393556]
標的外攻撃による敵の訓練は 最も認知されている方法の1つです
自然に不均衡なクラス間のセマンティックな類似性により、これらのハードクラスのペアが互いに仮想的なターゲットになる。
モデル最適化における重み付きハードクラスペアの損失について提案し、ハードクラスからの識別的特徴の学習を促す。
論文 参考訳(メタデータ) (2022-10-26T22:51:36Z) - Improving Robust Fairness via Balance Adversarial Training [51.67643171193376]
対人訓練 (AT) 法は, 対人攻撃に対して有効であるが, 異なるクラス間での精度と頑健さの相違が激しい。
本稿では,頑健な公正性問題に対処するために,BAT(Adversarial Training)を提案する。
論文 参考訳(メタデータ) (2022-09-15T14:44:48Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z) - Analysis and Applications of Class-wise Robustness in Adversarial
Training [92.08430396614273]
敵の訓練は、敵の例に対するモデルロバスト性を改善するための最も効果的な手法の1つである。
従来の研究は主にモデルの全体的な堅牢性に焦点を当てており、各クラスの役割に関する詳細な分析はいまだに欠落している。
MNIST, CIFAR-10, CIFAR-100, SVHN, STL-10, ImageNetの6つのベンチマークデータセットに対して, 逆トレーニングの詳細な診断を行う。
対戦型学習におけるより強力な攻撃手法は、主に脆弱なクラスに対するより成功した攻撃から、性能の向上を達成することを観察する。
論文 参考訳(メタデータ) (2021-05-29T07:28:35Z) - Universal Adversarial Training with Class-Wise Perturbations [78.05383266222285]
敵の訓練は 敵の攻撃を防御するために 最も広く使われる方法です
この作業では、UAPがすべてのクラスを等しく攻撃しないことがわかります。
我々は,対人訓練におけるクラスワイドUAPの利用を提案することで,SOTA UATを改善した。
論文 参考訳(メタデータ) (2021-04-07T09:05:49Z) - Robustness May Be at Odds with Fairness: An Empirical Study on
Class-wise Accuracy [85.20742045853738]
CNNは敵の攻撃に弱いことが広く知られている。
本稿では,対人訓練モデルのクラスワイド精度とロバスト性に関する実証的研究を提案する。
トレーニングデータセットが各クラスに同じ数のサンプルを持つ場合でも,精度と堅牢性にはクラス間差があることが判明した。
論文 参考訳(メタデータ) (2020-10-26T06:32:32Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。