論文の概要: Inducing Uncertainty on Open-Weight Models for Test-Time Privacy in Image Recognition
- arxiv url: http://arxiv.org/abs/2509.11625v2
- Date: Mon, 29 Sep 2025 21:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.100614
- Title: Inducing Uncertainty on Open-Weight Models for Test-Time Privacy in Image Recognition
- Title(参考訳): 画像認識におけるテスト時間プライバシーのためのオープンウェイトモデルの不確かさの誘導
- Authors: Muhammad H. Ashiq, Peter Triantafillou, Hung Yun Tseng, Grigoris G. Chrysos,
- Abstract要約: AIの安全性に関する主要な懸念は、マシンラーニング(ML)の文献で検証されている。
MLモデルのユーザが不正な個人情報の予測を利用して他人を傷つけないようにするには、どうすればいいでしょうか?
保護されたインスタンスに対して最大不確実性を誘導し、他のすべてのインスタンスに対して精度を保つ。
- 参考スコア(独自算出の注目度): 3.8031924942083517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key concern for AI safety remains understudied in the machine learning (ML) literature: how can we ensure users of ML models do not leverage predictions on incorrect personal data to harm others? This is particularly pertinent given the rise of open-weight models, where simply masking model outputs does not suffice to prevent adversaries from recovering harmful predictions. To address this threat, which we call *test-time privacy*, we induce maximal uncertainty on protected instances while preserving accuracy on all other instances. Our proposed algorithm uses a Pareto optimal objective that explicitly balances test-time privacy against utility. We also provide a certifiable approximation algorithm which achieves $(\varepsilon, \delta)$ guarantees without convexity assumptions. We then prove a tight bound that characterizes the privacy-utility tradeoff that our algorithms incur. Empirically, our method obtains at least $>3\times$ stronger uncertainty than pretraining with marginal drops in accuracy on various image recognition benchmarks. Altogether, this framework provides a tool to guarantee additional protection to end users.
- Abstract(参考訳): 機械学習(ML)の文献では、AIの安全性に関する重要な懸念が依然として再検討されている。
これは、単にモデル出力をマスクするだけで、敵が有害な予測を回復するのを防ぐのに十分ではない、オープンウェイトモデルの台頭に特に関係している。
テスト時のプライバシ*と呼ばれるこの脅威に対処するため、他のすべてのインスタンスの正確性を保ちながら、保護されたインスタンスの最大の不確実性を誘導します。
提案アルゴリズムはParetoの最適目的を用いて,テスト時のプライバシとユーティリティとのバランスを明確にする。
また、凸性仮定なしで$(\varepsilon, \delta)$保証を達成できる認証近似アルゴリズムも提供する。
そして、我々のアルゴリズムが生み出すプライバシーとユーティリティのトレードオフを特徴づける厳密な制約を証明します。
提案手法は,様々な画像認識ベンチマークにおいて,限界値の精度低下による事前学習よりも,少なくとも$>3\times$強い不確実性が得られる。
このフレームワークは、エンドユーザーにさらなる保護を保証するツールを提供する。
関連論文リスト
- Reminiscence Attack on Residuals: Exploiting Approximate Machine Unlearning for Privacy [18.219835803238837]
非学習アルゴリズムは、未学習データのプライバシーを適切に保護できないことを示す。
本稿では,残余と会員のプライバシーの相関を増幅するReminiscence Attack (ReA)を提案する。
我々は,まず深層無学習データトレースを除去し,収束安定性を強制する二相近似学習フレームワークを開発した。
論文 参考訳(メタデータ) (2025-07-28T07:12:12Z) - Confidential Guardian: Cryptographically Prohibiting the Abuse of Model Abstention [65.47632669243657]
不正直な機関は、不確実性の観点からサービスを差別または不正に否定する機構を利用することができる。
我々は、ミラージュと呼ばれる不確実性誘導攻撃を導入することで、この脅威の実践性を実証する。
本研究では,参照データセット上のキャリブレーションメトリクスを分析し,人工的に抑制された信頼度を検出するフレームワークであるConfidential Guardianを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:47:50Z) - Coverage-Guaranteed Speech Emotion Recognition via Calibrated Uncertainty-Adaptive Prediction Sets [0.0]
しばしば感情的な抑圧と突然のアウトバーストによって引き起こされる道路の怒りは、衝突や攻撃的な行動を引き起こすことによって道路の安全を著しく脅かす。
音声感情認識技術は、ネガティブな感情を早期に識別し、タイムリーな警告を発することにより、このリスクを軽減することができる。
本稿では,予測精度を統計的に厳格に保証するリスク制御予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T12:26:28Z) - Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Training Private Models That Know What They Don't Know [40.19666295972155]
いくつかの一般的な選択的予測手法は、差分的にプライベートな環境では効果がないことがわかった。
モデルユーティリティレベルを越えた選択予測性能を分離する新しい評価機構を提案する。
論文 参考訳(メタデータ) (2023-05-28T12:20:07Z) - Theoretically Principled Federated Learning for Balancing Privacy and
Utility [61.03993520243198]
モデルパラメータを歪ませることでプライバシを保護する保護機構の一般学習フレームワークを提案する。
フェデレートされた学習における各コミュニケーションラウンドにおいて、各クライアント上の各モデルパラメータに対して、パーソナライズされたユーティリティプライバシトレードオフを実現することができる。
論文 参考訳(メタデータ) (2023-05-24T13:44:02Z) - Private Prediction Sets [72.75711776601973]
機械学習システムは、個人のプライバシーの確実な定量化と保護を必要とする。
これら2つのデシラタを共同で扱う枠組みを提案する。
本手法を大規模コンピュータビジョンデータセット上で評価する。
論文 参考訳(メタデータ) (2021-02-11T18:59:11Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。