論文の概要: Certified Robustness from Approximate Gaussian Mixture Structures in Pretrained Latent Spaces
- arxiv url: http://arxiv.org/abs/2605.25352v1
- Date: Mon, 25 May 2026 02:12:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.244384
- Title: Certified Robustness from Approximate Gaussian Mixture Structures in Pretrained Latent Spaces
- Title(参考訳): 事前訓練された潜在空間における近似ガウス混合構造からの証明されたロバスト性
- Authors: Konstantinos Emmanouilidis, Tianjiao Ding, Nghia Nguyen, Nicolas Loizou, René Vidal,
- Abstract要約: ディープラーニングモデルは敵の摂動に弱い。
実証的な防御は、実際に強い堅牢性を達成することができるが、正式な保証は欠如している。
本稿では,データ表現における潜在構造を利用する頑健な分類器を設計するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 42.97530488302465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models are vulnerable to adversarial perturbations, raising important concerns for safety-critical deployment. Empirical defenses can achieve strong robustness in practice, but lack formal guarantees, motivating the need for certifiably robust classifiers. While certified methods provide formal guarantees, they often yield overly conservative bounds due to their inability to exploit structure in complex data distributions. In this work, we propose a framework for designing certifiably robust classifiers that leverages latent structure in data representations. We first analyze the Gaussian mixture setting, deriving necessary and sufficient conditions for the existence of robust classifiers and constructing a classifier with a closed-form robustness certificate and generalization guarantees. Our main contribution is to show that exact structure is not required: we prove that if a pretrained encoder maps inputs to a latent distribution that is $\varepsilon$-close (in KL divergence) to a Gaussian mixture, then certified accuracy degrades gracefully, with an explicit bound relating robustness under the true and approximate distributions. This result enables the direct use of pretrained models without requiring exact distributional assumptions. Empirically, our method achieves state-of-the-art or competitive certified accuracy on CIFAR-10 and ImageNet, while maintaining strong clean performance and low computational overhead. Overall, our work establishes approximate latent structure as a practical and principled route to certifiable robustness.
- Abstract(参考訳): ディープラーニングモデルは、敵の摂動に弱いため、安全クリティカルなデプロイメントに対する重要な懸念を提起する。
実証的な防御は、実際に強い堅牢性を達成することができるが、形式的な保証が欠如しており、確実に堅牢な分類器の必要性を動機付けている。
認定された手法は正式な保証を提供するが、複雑なデータ分布の構造を活用できないため、過度に保守的な境界を得ることが多い。
本研究では,データ表現における潜在構造を利用する頑健な分類器を設計するためのフレームワークを提案する。
まずガウス混合条件を解析し、ロバスト分類器の存在に必要な十分条件を導出し、閉形式ロバスト性証明と一般化保証を備えた分類器を構築する。
事前訓練されたエンコーダが入力をガウス混合に$\varepsilon$-close (KL の発散) の潜伏分布にマッピングすると、真および近似分布の下で、明らかな有界なロバスト性(英語版)を伴って、精度が優雅に低下することを示す。
この結果により、正確な分布仮定を必要とせず、事前訓練されたモデルを直接使用することができる。
提案手法は,CIFAR-10 と ImageNet 上で,高いクリーン性能と低計算オーバーヘッドを維持しながら,最先端ないし競争力のある認証精度を実現する。
全体として、我々の研究は、証明可能な堅牢性への実用的で原則化されたルートとして、近似潜在構造を確立している。
関連論文リスト
- Provable Robustness against Backdoor Attacks via the Primal-Dual Perspective on Differential Privacy [51.758416625168]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明するための強力なツールである。
本稿では,複雑な構成機構の認証のためのフレームワークを提案する。
複雑な脅威モデル下での堅牢性を証明するために複合メカニズムを使用するための原則的で一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2026-05-20T22:17:29Z) - Beyond Red-Teaming: Formal Guarantees of LLM Guardrail Classifiers [1.9839136494100942]
ガードレールは生産言語モデルを有害な行動から保護するが、正式な保証は提供しない。
SVD整列超矩形とガウス混合モデルという2つの領域の構成を提案する。
このフレームワークを、毒性ドメイン上の3つの著者がトレーニングしたガードレールに適用すると、すべての超矩形構成はSATを返す。
GPT-2とLlama-3.1-8Bは、様々な境界で90%と80%の堅牢なカバーを維持しているが、BERTの安全保証は独特な揮発性を証明している。
論文 参考訳(メタデータ) (2026-05-11T17:41:38Z) - Efficient Credal Prediction through Decalibration [27.17944683306638]
本稿では, 相対的可能性の概念を基礎として, 断裂予測を効率的に行う方法を提案する。
提案手法は, 多様なタスクにまたがって, 高い性能でクレーダル集合を生成することを示す。
特に,TabPFNやCLIPなどのモデルに対して,致命的な予測を示す。
論文 参考訳(メタデータ) (2026-03-09T15:30:10Z) - Mixing Classifiers to Alleviate the Accuracy-Robustness Trade-Off [8.169499497403102]
本稿では、標準ニューラルネットワークとロバストニューラルネットワークの出力確率を混合した理論的動機付け型定式化を提案する。
数値実験により,混合分類器は精度・損耗トレードオフを著しく改善することを確認した。
論文 参考訳(メタデータ) (2023-11-26T02:25:30Z) - Certifying Ensembles: A General Certification Theory with
S-Lipschitzness [128.2881318211724]
組み立ては、一般化、不確実性推定、校正、コンセプトドリフトの効果の緩和に有用であることが示されている。
本研究では、S-Lipschitz分類器を導入し、アンサンブルの理論的堅牢性を分析することにより、リプシッツ連続性を一般化する。
論文 参考訳(メタデータ) (2023-04-25T17:50:45Z) - Confidence-aware Training of Smoothed Classifiers for Certified
Robustness [75.95332266383417]
我々は「ガウス雑音下での精度」を、入力に対する対角的ロバスト性の容易に計算可能なプロキシとして利用する。
実験の結果, 提案手法は, 最先端の訓練手法による信頼性向上を継続的に示すことがわかった。
論文 参考訳(メタデータ) (2022-12-18T03:57:12Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Adversarial Robustness of Supervised Sparse Coding [34.94566482399662]
表現を学習すると同時に、正確な一般化境界と堅牢性証明を与えるモデルを考える。
線形エンコーダと組み合わされたスパーシティプロモーティングエンコーダを組み合わせた仮説クラスに着目した。
エンドツーエンドの分類のための堅牢性証明を提供する。
論文 参考訳(メタデータ) (2020-10-22T22:05:21Z) - Regularized Training and Tight Certification for Randomized Smoothed
Classifier with Provable Robustness [15.38718018477333]
我々は新たな正規化リスクを導出し、正規化器はスムーズな手法の精度と堅牢性を適応的に促進することができる。
また、正規化効果を利用して、高い確率で保持されるより厳密なロバスト性の下限を提供する新しい認証アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-02-17T20:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。