論文の概要: Confidential Guardian: Cryptographically Prohibiting the Abuse of Model Abstention
- arxiv url: http://arxiv.org/abs/2505.23968v1
- Date: Thu, 29 May 2025 19:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.646194
- Title: Confidential Guardian: Cryptographically Prohibiting the Abuse of Model Abstention
- Title(参考訳): Secidential Guardian: 暗号的にモデル侵害の回避を禁止
- Authors: Stephan Rabanser, Ali Shahin Shamsabadi, Olive Franzese, Xiao Wang, Adrian Weller, Nicolas Papernot,
- Abstract要約: 不正直な機関は、不確実性の観点からサービスを差別または不正に否定する機構を利用することができる。
我々は、ミラージュと呼ばれる不確実性誘導攻撃を導入することで、この脅威の実践性を実証する。
本研究では,参照データセット上のキャリブレーションメトリクスを分析し,人工的に抑制された信頼度を検出するフレームワークであるConfidential Guardianを提案する。
- 参考スコア(独自算出の注目度): 65.47632669243657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cautious predictions -- where a machine learning model abstains when uncertain -- are crucial for limiting harmful errors in safety-critical applications. In this work, we identify a novel threat: a dishonest institution can exploit these mechanisms to discriminate or unjustly deny services under the guise of uncertainty. We demonstrate the practicality of this threat by introducing an uncertainty-inducing attack called Mirage, which deliberately reduces confidence in targeted input regions, thereby covertly disadvantaging specific individuals. At the same time, Mirage maintains high predictive performance across all data points. To counter this threat, we propose Confidential Guardian, a framework that analyzes calibration metrics on a reference dataset to detect artificially suppressed confidence. Additionally, it employs zero-knowledge proofs of verified inference to ensure that reported confidence scores genuinely originate from the deployed model. This prevents the provider from fabricating arbitrary model confidence values while protecting the model's proprietary details. Our results confirm that Confidential Guardian effectively prevents the misuse of cautious predictions, providing verifiable assurances that abstention reflects genuine model uncertainty rather than malicious intent.
- Abstract(参考訳): 機械学習モデルが不確実な時に停止するという、有害な予測は、安全クリティカルなアプリケーションにおける有害なエラーを制限するために不可欠である。
本研究では,不当な機関がこれらのメカニズムを利用して不確実性の観点からサービスを識別または不当に否定する,新たな脅威を特定する。
本研究では,この脅威に対して,意図的な入力領域への信頼を低下させ,特定の個人を隠蔽的に不利にする「ミラージュ」と呼ばれる不確実性誘導攻撃を導入することで,その実践性を実証する。
同時に、Mirageはすべてのデータポイントにわたって高い予測性能を維持している。
この脅威に対処するため、我々は、参照データセット上の校正メトリクスを分析し、人工的に抑圧された信頼性を検出するフレームワークであるConfidential Guardianを提案する。
さらに、報告された信頼度スコアが実際にデプロイされたモデルに由来することを保証するために、検証された推論のゼロ知識証明を採用している。
これにより、プロバイダは、モデルのプロプライエタリな詳細を保護しながら、任意のモデルの信頼性値を作成できない。
この結果から,機密情報機関が誤用を効果的に防ぐことが確認された。
関連論文リスト
- Confidence Aware Learning for Reliable Face Anti-spoofing [52.23271636362843]
本稿では,その能力境界を意識した信頼認識顔アンチスプーフィングモデルを提案する。
各サンプルの予測中にその信頼性を推定する。
実験の結果,提案したCA-FASは予測精度の低いサンプルを効果的に認識できることがわかった。
論文 参考訳(メタデータ) (2024-11-02T14:29:02Z) - On the Robustness of Adversarial Training Against Uncertainty Attacks [9.180552487186485]
学習問題において、手元のタスクに固有のノイズは、ある程度の不確実性なく推論する可能性を妨げている。
本研究は、敵の例、すなわち、誤分類を引き起こす注意深く摂動されたサンプルに対する防御が、より安全で信頼性の高い不確実性推定を保証していることを実証的および理論的に明らかにする。
我々は,CIFAR-10およびImageNetデータセット上で,公開ベンチマークのRobustBenchから,複数の逆ロバストモデルを評価する。
論文 参考訳(メタデータ) (2024-10-29T11:12:44Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - On the Impact of Uncertainty and Calibration on Likelihood-Ratio Membership Inference Attacks [42.18575921329484]
我々は,情報理論の枠組みにおける可能性比攻撃(LiRA)の性能を解析する。
我々は、MIAの有効性に対する不確実性と校正の影響についての洞察を提供することを目的として、MIA敵の利点に基づいて境界を導出する。
論文 参考訳(メタデータ) (2024-02-16T13:41:18Z) - Confidence-Calibrated Face and Kinship Verification [8.570969129199467]
検証モデルにより、類似度スコアを任意の顔対に対する信頼スコアに変換することができる効果的な信頼度尺度を導入する。
また,実装が容易で,既存の検証モデルにも容易に適用可能な,信頼性校正アプローチであるAngular Scaling(ASC)を提案する。
我々の知識を最大限に活用するために、我々の研究は、現代の顔と親族関係の検証タスクに対する、初めての包括的信頼度校正ソリューションを提示した。
論文 参考訳(メタデータ) (2022-10-25T10:43:46Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。