論文の概要: PROSAC: Provably Safe Certification for Machine Learning Models under Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2402.02629v2
- Date: Tue, 17 Dec 2024 11:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:55:21.369314
- Title: PROSAC: Provably Safe Certification for Machine Learning Models under Adversarial Attacks
- Title(参考訳): PROSAC: 敵対的攻撃下でのマシンラーニングモデルに対するおそらく安全な認証
- Authors: Chen Feng, Ziquan Liu, Zhuo Zhi, Ilija Bogunovic, Carsten Gerner-Beuerle, Miguel Rodrigues,
- Abstract要約: 最先端の機械学習モデルは、敵の摂動によって深刻な危険にさらされる可能性がある。
本稿では,敵対的攻撃が存在する場合に,機械学習モデルの性能を証明するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 22.30471086955775
- License:
- Abstract: It is widely known that state-of-the-art machine learning models, including vision and language models, can be seriously compromised by adversarial perturbations. It is therefore increasingly relevant to develop capabilities to certify their performance in the presence of the most effective adversarial attacks. Our paper offers a new approach to certify the performance of machine learning models in the presence of adversarial attacks with population level risk guarantees. In particular, we introduce the notion of $(\alpha,\zeta)$-safe machine learning model. We propose a hypothesis testing procedure, based on the availability of a calibration set, to derive statistical guarantees providing that the probability of declaring that the adversarial (population) risk of a machine learning model is less than $\alpha$ (i.e. the model is safe), while the model is in fact unsafe (i.e. the model adversarial population risk is higher than $\alpha$), is less than $\zeta$. We also propose Bayesian optimization algorithms to determine efficiently whether a machine learning model is $(\alpha,\zeta)$-safe in the presence of an adversarial attack, along with statistical guarantees. We apply our framework to a range of machine learning models - including various sizes of vision Transformer (ViT) and ResNet models - impaired by a variety of adversarial attacks, such as PGDAttack, MomentumAttack, GenAttack and BanditAttack, to illustrate the operation of our approach. Importantly, we show that ViT's are generally more robust to adversarial attacks than ResNets, and large models are generally more robust than smaller models. Our approach goes beyond existing empirical adversarial risk-based certification guarantees. It formulates rigorous (and provable) performance guarantees that can be used to satisfy regulatory requirements mandating the use of state-of-the-art technical tools.
- Abstract(参考訳): ビジョンや言語モデルを含む最先端の機械学習モデルが、敵の摂動によって深刻な被害を受けることは広く知られている。
そのため、最も効果的な敵攻撃の存在下で、その性能を認定する能力を開発することがますます重要になっている。
本稿では,集団レベルのリスク保証を伴う敵攻撃の存在下で,機械学習モデルの性能を証明するための新しいアプローチを提案する。
特に,$(\alpha,\zeta)$-safe機械学習モデルの概念を紹介する。
校正セットの可用性に基づいて仮説テスト手順を提案し、機械学習モデルの逆数(人口)リスクが$\alpha$未満である(つまり、モデルが安全である)と宣言する確率が$\alpha$未満である(すなわち、モデル逆数集団リスクが$\alpha$よりも高い)ことを宣言する確率が$\zeta$未満である、という統計的保証を導出する。
また,統計的保証とともに,逆攻撃の有無で機械学習モデルが$(\alpha,\zeta)$-safeであるかどうかを効率的に判断するベイズ最適化アルゴリズムを提案する。
PGDAttack、MomentumAttack、GenAttack、BanditAttackなど、さまざまな敵攻撃で障害を受けた視覚変換器(ViT)やResNetモデルなど、さまざまな機械学習モデルに適用して、アプローチの動作を説明する。
重要なことは、ViTは一般的にResNetsよりも敵攻撃に対して堅牢であり、大きなモデルはより小さなモデルよりも概して堅牢であることを示している。
当社のアプローチは、既存の実証的なリスクベースの認証保証を越えています。
最先端の技術ツールの使用を義務付ける規制要件を満たすために使用できる厳密な(かつ証明可能な)パフォーマンス保証を定式化します。
関連論文リスト
- A Hybrid Defense Strategy for Boosting Adversarial Robustness in Vision-Language Models [9.304845676825584]
本稿では,複数の攻撃戦略と高度な機械学習技術を統合した,新たな敵訓練フレームワークを提案する。
CIFAR-10 や CIFAR-100 などの実世界のデータセットで行った実験により,提案手法がモデルロバスト性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-18T23:47:46Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - SecurityNet: Assessing Machine Learning Vulnerabilities on Public Models [74.58014281829946]
本研究では, モデル盗難攻撃, メンバーシップ推論攻撃, パブリックモデルにおけるバックドア検出など, いくつかの代表的な攻撃・防御の有効性を解析する。
実験により,これらの攻撃・防御性能は,自己学習モデルと比較して,公共モデルによって大きく異なることが示された。
論文 参考訳(メタデータ) (2023-10-19T11:49:22Z) - Improved Membership Inference Attacks Against Language Classification Models [0.0]
分類モデルに対するメンバシップ推論攻撃を実行するための新しいフレームワークを提案する。
本手法は,単一攻撃モデルやクラスラベル毎の攻撃モデルよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2023-10-11T06:09:48Z) - AUTOLYCUS: Exploiting Explainable AI (XAI) for Model Extraction Attacks against Interpretable Models [1.8752655643513647]
XAIツールは、モデル抽出攻撃の脆弱性を増大させる可能性がある。
そこで本研究では,ブラックボックス設定下での解釈可能なモデルに対して,新たなリトレーニング(学習)に基づくモデル抽出攻撃フレームワークを提案する。
AUTOLYCUSは非常に効果的で、最先端の攻撃に比べてクエリが大幅に少ないことが示される。
論文 参考訳(メタデータ) (2023-02-04T13:23:39Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Careful What You Wish For: on the Extraction of Adversarially Trained
Models [2.707154152696381]
最近の機械学習(ML)モデルに対する攻撃は、いくつかのセキュリティとプライバシの脅威を引き起こす。
本稿では,敵の学習したモデルに対する抽出攻撃を評価する枠組みを提案する。
本研究では, 自然学習環境下で得られたモデルよりも, 敵の訓練を受けたモデルの方が抽出攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2022-07-21T16:04:37Z) - CC-Cert: A Probabilistic Approach to Certify General Robustness of
Neural Networks [58.29502185344086]
安全クリティカルな機械学習アプリケーションでは、モデルを敵の攻撃から守ることが不可欠である。
意味的に意味のある入力変換に対して、ディープラーニングモデルの証明可能な保証を提供することが重要である。
我々はChernoff-Cramer境界に基づく新しい普遍確率的証明手法を提案する。
論文 参考訳(メタデータ) (2021-09-22T12:46:04Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - RAB: Provable Robustness Against Backdoor Attacks [20.702977915926787]
我々は、一般的な脅威モデル、特にバックドアアタックに対して、機械学習モデルの堅牢性を証明することに重点を置いている。
トレーニングモデルをスムースにし,バックドア攻撃に対する堅牢性を証明するための,最初の堅牢なトレーニングプロセスであるRABを提案する。
我々は、さまざまな機械学習(ML)モデルに対する包括的な実験を行い、バックドア攻撃に対する信頼性の高い堅牢性を示す最初のベンチマークを提供する。
論文 参考訳(メタデータ) (2020-03-19T17:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。