論文の概要: Robust Privacy: Inference-Time Privacy through Certified Robustness
- arxiv url: http://arxiv.org/abs/2601.17360v1
- Date: Sat, 24 Jan 2026 08:13:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.632036
- Title: Robust Privacy: Inference-Time Privacy through Certified Robustness
- Title(参考訳): ロバストプライバシー - 認証されたロバスト性による推論時間プライバシー
- Authors: Jiankai Jin, Xiangzheng Zhang, Zhao Liu, Deyue Zhang, Quanchen Zou,
- Abstract要約: 本稿では,ロバストプライバシ(RP)について紹介する。
RPは攻撃成功率(ASR)を73%から4%に下げる。
RPはMIA(例えばASRが44%に低下する)を部分的に緩和することも可能で、モデル性能は劣化しない。
- 参考スコア(独自算出の注目度): 8.585337292998766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning systems can produce personalized outputs that allow an adversary to infer sensitive input attributes at inference time. We introduce Robust Privacy (RP), an inference-time privacy notion inspired by certified robustness: if a model's prediction is provably invariant within a radius-$R$ neighborhood around an input $x$ (e.g., under the $\ell_2$ norm), then $x$ enjoys $R$-Robust Privacy, i.e., observing the prediction cannot distinguish $x$ from any input within distance $R$ of $x$. We further develop Attribute Privacy Enhancement (APE) to translate input-level invariance into an attribute-level privacy effect. In a controlled recommendation task where the decision depends primarily on a sensitive attribute, we show that RP expands the set of sensitive-attribute values compatible with a positive recommendation, expanding the inference interval accordingly. Finally, we empirically demonstrate that RP also mitigates model inversion attacks (MIAs) by masking fine-grained input-output dependence. Even at small noise levels ($σ=0.1$), RP reduces the attack success rate (ASR) from 73% to 4% with partial model performance degradation. RP can also partially mitigate MIAs (e.g., ASR drops to 44%) with no model performance degradation.
- Abstract(参考訳): 機械学習システムはパーソナライズされたアウトプットを生成でき、敵は推論時にセンシティブな入力属性を推測できる。
例えば、入力$x$ (e g , under the $\ell_2$ norm), then $x$ enjoys $R$-Robust Privacy, すなわち、予測が距離$R$内の任意の入力から$x$を区別することはできない。
さらに、属性レベルの不変性を属性レベルのプライバシ効果に変換するために、属性プライバシ強化(APE)を開発する。
決定が主にセンシティブな属性に依存する制御されたレコメンデーションタスクにおいて、RPは肯定的なレコメンデーションと適合するセシブな属性値のセットを拡張し、それに応じて推論間隔を拡大することを示す。
最後に、実験により、RPは詳細な入出力依存を隠蔽することにより、モデル反転攻撃(MIAs)を緩和することを示した。
小騒音レベル(σ=0.1$)であっても、RPは攻撃成功率(ASR)を73%から4%に下げる。
RPはMIA(例:ASRが44%に低下する)を部分的に緩和することも可能で、モデル性能は劣化しない。
関連論文リスト
- PAC-Private Responses with Adversarial Composition [11.108854725676006]
PACプライバシは、任意のブラックボックス機能に対して、インスタンスベースのプライバシ保証を提供する。
適応雑音校正による逆合成を実現する新しいアルゴリズムを提案する。
実験により, ステップごとのプライバシー予算が極端に小さく, 有効性が高いことがわかった。
論文 参考訳(メタデータ) (2026-01-20T14:53:39Z) - Privacy-Aware Decoding: Mitigating Privacy Leakage of Large Language Models in Retrieval-Augmented Generation [26.573578326262307]
プライバシ・アウェア・デコーディング(英: Privacy-Aware Decoding、PAD)は、ガウス雑音を発生時にトークンロジットに適応的に注入する軽量な推論時防御法である。
PADは信頼性ベースのスクリーニングを統合して、リスクの高いトークンを選択的に保護し、不要なノイズを最小限に抑える効率的な感度推定と、プライバシと生成品質のバランスをとるためのコンテキスト対応ノイズ校正を行う。
我々の研究は、機密ドメインにおける普遍的でスケーラブルなプライバシソリューションを実現するために、デコード戦略を通じて、RAGのプライバシリスクを軽減するための重要な一歩を踏み出しています。
論文 参考訳(メタデータ) (2025-08-05T05:22:13Z) - Machine Learning with Privacy for Protected Attributes [56.44253915927481]
差分プライバシー(DP)の定義を洗練し、機能差分プライバシー(FDP)と呼ばれるより汎用的で柔軟なフレームワークを作成する。
私たちの定義はシミュレーションに基づいており、プライバシの追加/削除と置き換えの両方が可能で、保護された機能と非保護された機能の任意の分離を処理できます。
各種機械学習タスクにフレームワークを適用し,パブリック機能が利用可能であればDP学習モデルの実用性を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2025-06-24T17:53:28Z) - $(ε, δ)$-Differentially Private Partial Least Squares Regression [1.8666451604540077]
我々は,モデルに基づくデータのプライバシーを確保するために,$(epsilon, delta)$-differentially private PLS (edPLS)アルゴリズムを提案する。
実験により、EDPLSはトレーニングデータに固有の変動源を回復することを目的とした、効果的なプライバシー攻撃を施すことが示されている。
論文 参考訳(メタデータ) (2024-12-12T10:49:55Z) - Calibrating Practical Privacy Risks for Differentially Private Machine Learning [5.363664265121231]
モデルトレーニングにおいて、より柔軟なプライバシ予算設定を可能にするために、攻撃の成功率を下げるアプローチについて検討する。
プライバシに敏感な機能を選択的に抑制することで、アプリケーション固有のデータユーティリティを損なうことなく、低いASR値を達成できることがわかりました。
論文 参考訳(メタデータ) (2024-10-30T03:52:01Z) - Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,このドメイン内のモデルについて考察する。-文脈的デュエルバンディット(contextual dueling bandits)と,正の選好ラベルを相手によって反転させることができる対向フィードバック(reversarial feedback)について考察する。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(RCDB)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - General Gaussian Noise Mechanisms and Their Optimality for Unbiased Mean
Estimation [58.03500081540042]
プライベート平均推定に対する古典的なアプローチは、真の平均を計算し、バイアスのないがおそらく相関のあるガウスノイズを加えることである。
すべての入力データセットに対して、集中的な差分プライバシーを満たす非バイアス平均推定器が、少なくとも多くのエラーをもたらすことを示す。
論文 参考訳(メタデータ) (2023-01-31T18:47:42Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Toward Adversarial Robustness via Semi-supervised Robust Training [93.36310070269643]
アドリラルな例は、ディープニューラルネットワーク(DNN)に対する深刻な脅威であることが示されている。
R_stand$ と $R_rob$ の2つの異なるリスクを共同で最小化することで、新しい防御手法であるロバストトレーニング(RT)を提案する。
論文 参考訳(メタデータ) (2020-03-16T02:14:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。