論文の概要: Robustness Certificates for Neural Networks against Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2512.20865v1
- Date: Wed, 24 Dec 2025 00:49:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.643097
- Title: Robustness Certificates for Neural Networks against Adversarial Attacks
- Title(参考訳): 敵攻撃に対するニューラルネットワークのロバスト性証明
- Authors: Sara Taheri, Mahalakshmi Sabanayagam, Debarghya Ghoshdastidar, Majid Zamani,
- Abstract要約: 本稿では,勾配に基づく学習を離散時間力学系としてモデル化する形式的頑健性認定フレームワークを提案する。
当社のフレームワークはテスト時の攻撃に対する認証にも拡張されており、トレーニングとテスト時の攻撃設定の両方で正式な保証を提供する最初の統一されたフレームワークです。
- 参考スコア(独自算出の注目度): 9.365069861121944
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The increasing use of machine learning in safety-critical domains amplifies the risk of adversarial threats, especially data poisoning attacks that corrupt training data to degrade performance or induce unsafe behavior. Most existing defenses lack formal guarantees or rely on restrictive assumptions about the model class, attack type, extent of poisoning, or point-wise certification, limiting their practical reliability. This paper introduces a principled formal robustness certification framework that models gradient-based training as a discrete-time dynamical system (dt-DS) and formulates poisoning robustness as a formal safety verification problem. By adapting the concept of barrier certificates (BCs) from control theory, we introduce sufficient conditions to certify a robust radius ensuring that the terminal model remains safe under worst-case ${\ell}_p$-norm based poisoning. To make this practical, we parameterize BCs as neural networks trained on finite sets of poisoned trajectories. We further derive probably approximately correct (PAC) bounds by solving a scenario convex program (SCP), which yields a confidence lower bound on the certified robustness radius generalizing beyond the training set. Importantly, our framework also extends to certification against test-time attacks, making it the first unified framework to provide formal guarantees in both training and test-time attack settings. Experiments on MNIST, SVHN, and CIFAR-10 show that our approach certifies non-trivial perturbation budgets while being model-agnostic and requiring no prior knowledge of the attack or contamination level.
- Abstract(参考訳): 安全クリティカルドメインにおける機械学習の利用の増加は、敵の脅威、特にトレーニングデータを劣化させたデータ中毒攻撃のリスクを高め、パフォーマンスを低下させたり、安全でない振る舞いを誘発したりする。
ほとんどの既存の防衛は、正式な保証を欠いているか、モデルクラス、攻撃タイプ、中毒の程度、またはポイントワイド認証に関する制限的な仮定に依存しており、実用的信頼性を制限している。
本稿では,勾配に基づくトレーニングを離散時間力学系 (dt-DS) としてモデル化し, 安全性検証問題として有害なロバスト性を定式化する, 形式的ロバスト性認定フレームワークを提案する。
制御理論からバリア証明書(BCs)の概念を適用することで、最低ケース${\ell}_p$-normベースの中毒の下で端末モデルが安全であることを保証する頑健な半径を証明できる十分な条件を導入する。
これを実現するために、BC を有限個の有毒軌道で訓練されたニューラルネットワークとしてパラメータ化する。
さらに、シナリオ凸プログラム(SCP)を解くことで、トレーニングセットを超えて一般化された証明されたロバストネス半径の信頼性を低くすることで、ほぼ正しい(PAC)境界を導出する。
重要なことは、我々のフレームワークはテスト時の攻撃に対する認証にまで拡張され、トレーニングとテスト時の攻撃設定の両方で正式な保証を提供する最初の統一されたフレームワークとなります。
MNIST,SVHN,CIFAR-10に対する実験により,本手法は非自明な摂動予算を立証すると同時に,モデル非依存であり,攻撃や汚染レベルの事前知識を必要としないことを示した。
関連論文リスト
- Distributionally Robust Safety Verification of Neural Networks via Worst-Case CVaR [3.0458514384586404]
本稿では、ニューラルネットワーク検証のためのFazlyabの2次制約(QC)と半定値プログラミング(SDP)フレームワークを構築する。
この統合により、入力不確かさをカバーする楕円体、ポリトープ、超平面が拡張され、安全クリティカルドメインへの適用性も拡張される。
論文 参考訳(メタデータ) (2025-09-22T07:04:53Z) - Preliminary Investigation into Uncertainty-Aware Attack Stage Classification [81.28215542218724]
この研究は、不確実性の下での攻撃段階推論の問題に対処する。
Evidential Deep Learning (EDL) に基づく分類手法を提案し、ディリクレ分布のパラメータを可能な段階に出力することで予測の不確実性をモデル化する。
シミュレーション環境における予備実験により,提案モデルが精度良く攻撃の段階を推定できることが実証された。
論文 参考訳(メタデータ) (2025-08-01T06:58:00Z) - FullCert: Deterministic End-to-End Certification for Training and Inference of Neural Networks [62.897993591443594]
FullCertは、音と決定論的境界を持つ最初のエンドツーエンドの認証器である。
2つのデータセットに対してFullCertの有効性を実験的に示す。
論文 参考訳(メタデータ) (2024-06-17T13:23:52Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - FI-ODE: Certifiably Robust Forward Invariance in Neural ODEs [34.762005448725226]
本稿では,ニューラルネットワークのフォワード不変性をトレーニングし,確実に証明するための一般的なフレームワークを提案する。
このフレームワークを、堅牢な継続的制御において認証された安全性を提供するために適用します。
さらに,画像分類における逆方向の堅牢性を証明するために,このフレームワークの汎用性について検討する。
論文 参考訳(メタデータ) (2022-10-30T20:30:19Z) - Certifiers Make Neural Networks Vulnerable to Availability Attacks [70.69104148250614]
私たちは初めて、逆転戦略が敵によって意図的に引き起こされる可能性があることを示します。
いくつかの入力や摂動のために自然に発生する障害に加えて、敵は故意にフォールバックを誘発するために訓練時間攻撃を使用することができる。
我々は2つの新しいアベイラビリティーアタックを設計し、これらの脅威の実用的妥当性を示す。
論文 参考訳(メタデータ) (2021-08-25T15:49:10Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Bayesian Inference with Certifiable Adversarial Robustness [25.40092314648194]
ベイズ学習のレンズによる対向学習ネットワークについて考察する。
本稿では,ベイズニューラルネットワーク(BNN)の認証保証付き対数訓練のための基本的枠組みを提案する。
本手法は,認証済みBNNを直接訓練する最初の方法であり,安全クリティカルなアプリケーションでの使用を容易にする。
論文 参考訳(メタデータ) (2021-02-10T07:17:49Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。