論文の概要: GF-Score: Certified Class-Conditional Robustness Evaluation with Fairness Guarantees
- arxiv url: http://arxiv.org/abs/2604.12757v1
- Date: Tue, 14 Apr 2026 14:03:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.479536
- Title: GF-Score: Certified Class-Conditional Robustness Evaluation with Fairness Guarantees
- Title(参考訳): GFスコア:フェアネス保証によるクラスコンディションロバストネス評価
- Authors: Arya Shah, Kaveri Visavadiya, Manisha Padala,
- Abstract要約: 我々は、認定されたGREATスコアをクラスごとの堅牢性プロファイルに分解するフレームワークであるemphGF-Score(GREAT-Fairness Score)を紹介する。
分解は正確であり、クラスごとのスコアは一貫性のある脆弱性パターンを示し、より堅牢なモデルではクラスレベルの格差が大きくなる傾向にある。
これらの結果から,信頼性の高いロバスト性保証がすべてのクラスを平等に保護できないような,実用的なアタックフリー監査パイプラインが確立された。
- 参考スコア(独自算出の注目度): 1.6058099298620423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial robustness is essential for deploying neural networks in safety-critical applications, yet standard evaluation methods either require expensive adversarial attacks or report only a single aggregate score that obscures how robustness is distributed across classes. We introduce the \emph{GF-Score} (GREAT-Fairness Score), a framework that decomposes the certified GREAT Score into per-class robustness profiles and quantifies their disparity through four metrics grounded in welfare economics: the Robustness Disparity Index (RDI), the Normalized Robustness Gini Coefficient (NRGC), Worst-Case Class Robustness (WCR), and a Fairness-Penalized GREAT Score (FP-GREAT). The framework further eliminates the original method's dependence on adversarial attacks through a self-calibration procedure that tunes the temperature parameter using only clean accuracy correlations. Evaluating 22 models from RobustBench across CIFAR-10 and ImageNet, we find that the decomposition is exact, that per-class scores reveal consistent vulnerability patterns (e.g., ``cat'' is the weakest class in 76\% of CIFAR-10 models), and that more robust models tend to exhibit greater class-level disparity. These results establish a practical, attack-free auditing pipeline for diagnosing where certified robustness guarantees fail to protect all classes equally. We release our code on \href{https://github.com/aryashah2k/gf-score}{GitHub}.
- Abstract(参考訳): ニューラルネットワークを安全クリティカルなアプリケーションにデプロイするためには、対人ロバスト性は不可欠だが、標準的な評価手法では、高価な対人攻撃を必要とするか、クラス間でロバスト性がどのように分散しているかを曖昧にする単一のアグリゲーションスコアしか報告しない。
我々は、認定されたGREATスコアをクラスごとの堅牢性プロファイルに分解し、福祉経済学の基礎となる4つの指標(RDI)、正規化ロバスト性ジニ係数(NRGC)、Worst-Case Class Robustness(WCR)、Fairness-Penalized GREATスコア(FP-GREAT)でそれらの格差を定量化するフレームワークであるGREAT-Fairness Score(GREAT-Fairness Score)を紹介する。
このフレームワークは、クリーンな精度の相関だけで温度パラメータを調整する自己校正手順により、元の手法の敵攻撃への依存をさらに排除する。
CIFAR-10 と ImageNet で RobustBench から22 モデルを評価すると、分解は正確であり、クラスごとのスコアは一貫性のある脆弱性パターン(例えば '`cat''' は CIFAR-10 モデルの76 % で最も弱いクラス)を示し、より堅牢なモデルの方がクラスレベルの格差が大きいことが分かる。
これらの結果から,信頼性の高いロバスト性保証がすべてのクラスを平等に保護できないような,実用的なアタックフリー監査パイプラインが確立された。
コードのリリースは \href{https://github.com/aryashah2k/gf-score}{GitHub} です。
関連論文リスト
- Assessing the Reliability of Large Language Models for Deductive Qualitative Coding: A Comparative Study of ChatGPT Interventions [0.0]
本研究では,構造化定性符号化における大規模言語モデル (LLM) の利用について検討する。
我々は合衆国最高裁判所の判例を21の政策領域に分類した。
ChatGPTは、低支持サブクラスにおける高いF1スコアを含む、サンプル間で安定した一致を示した。
論文 参考訳(メタデータ) (2025-07-18T22:16:04Z) - Mixing Classifiers to Alleviate the Accuracy-Robustness Trade-Off [8.169499497403102]
本稿では、標準ニューラルネットワークとロバストニューラルネットワークの出力確率を混合した理論的動機付け型定式化を提案する。
数値実験により,混合分類器は精度・損耗トレードオフを著しく改善することを確認した。
論文 参考訳(メタデータ) (2023-11-26T02:25:30Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Improving the Accuracy-Robustness Trade-Off of Classifiers via Adaptive Smoothing [9.637143119088426]
正誤例に対する頑健な基本分類器の信頼性差が,この改良の鍵となることを示す。
逆入力検出器を2つのベースモデルの混合を適応的に調整する混合ネットワークに適応させる。
提案したフレキシブルな手法は「適応的平滑化(adaptive smoothing)」と呼ばれ、クリーンな精度、堅牢性、あるいは敵検出を改善する既存のあるいは将来の方法と連携して機能する。
論文 参考訳(メタデータ) (2023-01-29T22:05:28Z) - Adversarial Training with Rectified Rejection [114.83821848791206]
本稿では,信頼度(T-Con)を確実性オラクルとして利用し,信頼度を補正してT-Conを予測することを提案する。
軽度の条件下では、正当性(R-Con)拒絶器と信頼性(R-Con)拒絶器を結合して、不正に分類された入力と正しく分類された入力を区別できることを示す。
論文 参考訳(メタデータ) (2021-05-31T08:24:53Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。