論文の概要: Randomized Least Squares Value Iteration itself is Joint Differentially Private
- arxiv url: http://arxiv.org/abs/2606.01952v1
- Date: Mon, 01 Jun 2026 09:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.688659
- Title: Randomized Least Squares Value Iteration itself is Joint Differentially Private
- Title(参考訳): ランダム化された最小二乗値イテレーションは、共同で個人化される
- Authors: Haiyang Lu, Pratik Gajane, Shaojie Bai, Mohammad Sadegh Talebi,
- Abstract要約: 本研究は,RLSVI(Least Squares Value Iteration)のようなランダムな探索に基づくアルゴリズムに焦点を当てる。
探索用に設定されたRSVIのノイズが、同時にプライバシー保護を提供するのを特徴付ける新しいプライバシ分析を示す。
- 参考スコア(独自算出の注目度): 9.850723913744535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As reinforcement learning (RL) increasingly applies to sensitive domains, such as health care and recommendation systems, privacy-preserving techniques have become essential to protect users' sensitive information. We investigate privacy-preserving RL under an episodic setting, focusing on algorithms based on randomized exploration, such as Randomized Least Squares Value Iteration (RLSVI). The overall goal is to study how randomized exploration interacts with the injected noise required by privacy mechanisms. In this work, we show a new privacy analysis that characterizes how the noise in RLSVI set for exploration simultaneously provides privacy protection. Specifically, we prove that RLSVI is $(\varepsilon(δ),δ)$-joint differentially private in tabular MDP as is with $\varepsilon(δ) = \frac{2AK}{H^2\log(2HSA)} + 2\sqrt{\frac{2AK\log(1/δ)}{H^2\log(2HSA)}}$, where $S$ and $A$ are the number of states and actions respectively, $H$ is the length of an episode and $K$ is the number of episodes.
- Abstract(参考訳): 強化学習(RL)が医療やレコメンデーションシステムといったセンシティブなドメインに適用されるにつれて、ユーザのセンシティブな情報を保護するためにプライバシー保護技術が不可欠になっている。
本稿では,RLSVI (Randomized Least Squares Value Iteration) のようなランダムな探索に基づくアルゴリズムに着目して,エピソードな環境下でのプライバシ保護RLについて検討する。
全体的な目標は、ランダム化された探索が、プライバシーメカニズムによって要求されるノイズとどのように相互作用するかを研究することである。
本研究では,探索用に設定されたRSVIのノイズが,同時にプライバシー保護を実現することを特徴付ける新しいプライバシー分析について述べる。
具体的には、 RLSVI が $(\varepsilon(δ),δ)$-joint が表形式 MDP において微分プライベートであることを証明する。 $\varepsilon(δ) = \frac{2AK}{H^2\log(2HSA)} + 2\sqrt {\frac{2AK\log(1/δ)}{H^2\log(2HSA)}}$。
関連論文リスト
- LoRA and Privacy: When Random Projections Help (and When They Don't) [55.65932772290123]
我々は、$S mapto M f(S)$ with $M sim W_d (1/r I_d, r)$という形のランダムマップである(ウィッシュアート)プロジェクション機構を導入し、その差分プライバシー特性について検討する。
ベクトル値が$f$の場合、付加雑音のない非漸近DP保証を証明し、ウィッシュアートのランダム性だけで十分であることを示す。
しかし,行列値クエリでは,ノイズフリーな環境では,そのメカニズムはDPではなく,その脆弱性を実証する。
論文 参考訳(メタデータ) (2026-01-29T13:43:37Z) - Privacy-Aware Sequential Learning [1.9573768098158]
予防接種登録では、個人は他人を観察して行動し、その結果の公開記録は個人情報を公開することができる。
プライバシ保護シーケンシャルラーニング(プライバシ保存シーケンシャルラーニング)について検討し、エージェントが報告された行動に内因性ノイズを加えてプライベートシグナルを隠蔽する。
以上の結果から,プライバシが情報を動的にフィードバックし,プラットフォームやポリシの設計を通知する方法が示唆された。
論文 参考訳(メタデータ) (2025-02-26T19:50:10Z) - Beyond Covariance Matrix: The Statistical Complexity of Private Linear Regression [66.93988594607842]
プライバシー制約の下では、プライベート線形回帰の複雑さは通常の共分散行列によって捉えられる。
最適率を達成するための情報重み付け回帰手法を提案する。
特に、我々の結果は、共同プライバシーは追加費用がほとんどないことを示している。
論文 参考訳(メタデータ) (2025-02-18T18:35:24Z) - Calibrating Practical Privacy Risks for Differentially Private Machine Learning [5.363664265121231]
モデルトレーニングにおいて、より柔軟なプライバシ予算設定を可能にするために、攻撃の成功率を下げるアプローチについて検討する。
プライバシに敏感な機能を選択的に抑制することで、アプリケーション固有のデータユーティリティを損なうことなく、低いASR値を達成できることがわかりました。
論文 参考訳(メタデータ) (2024-10-30T03:52:01Z) - Attack-Aware Noise Calibration for Differential Privacy [11.222654178949234]
差分プライバシー(DP)は、機密データに基づいて機械学習モデルをトレーニングする際のプライバシーリスクを軽減するために広く用いられるアプローチである。
プライバシとユーティリティのトレードオフを決定するため、追加されるノイズの規模は極めて重要です。
まず、ノイズスケールをプライバシー予算$varepsilon$に調整し、それからリスクを攻撃するためにepsilonを翻訳すると、過度に保守的なリスク評価につながることを示す。
論文 参考訳(メタデータ) (2024-07-02T11:49:59Z) - Analyzing Privacy Leakage in Machine Learning via Multiple Hypothesis
Testing: A Lesson From Fano [83.5933307263932]
本研究では,離散データに対するデータ再構成攻撃について検討し,仮説テストの枠組みの下で解析する。
基礎となるプライベートデータが$M$のセットから値を取ると、ターゲットのプライバシパラメータ$epsilon$が$O(log M)$になる。
論文 参考訳(メタデータ) (2022-10-24T23:50:12Z) - Robust Estimation of Discrete Distributions under Local Differential
Privacy [1.52292571922932]
局所的な差分プライバシー制約の下で,n$の汚染データバッチから離散分布を推定する問題を考察する。
2つの制約を組み合わせることで、$epsilonsqrtd/alpha2 k+sqrtd2/alpha2 kn$を$sqrtlog (1/epsilon)$ factorに設定できる。
論文 参考訳(メタデータ) (2022-02-14T15:59:02Z) - Improved Regret for Differentially Private Exploration in Linear MDP [31.567811502343552]
医療記録などのセンシティブなデータに依存する環境におけるシーケンシャルな意思決定におけるプライバシ保護探索について検討する。
我々は、エピソード数に対して$O(sqrtK)$を最適に依存した、改善された後悔率を持つプライベートアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-02T21:32:09Z) - Learning with User-Level Privacy [61.62978104304273]
ユーザレベルの差分プライバシー制約下での学習課題を,アルゴリズムを用いて解析する。
個々のサンプルのプライバシーのみを保証するのではなく、ユーザレベルのdpはユーザの貢献全体を保護します。
プライバシコストが$tau$に比例した$K$適応的に選択されたクエリのシーケンスにプライベートに答えるアルゴリズムを導き出し、私たちが検討する学習タスクを解決するためにそれを適用します。
論文 参考訳(メタデータ) (2021-02-23T18:25:13Z) - Hiding Among the Clones: A Simple and Nearly Optimal Analysis of Privacy
Amplification by Shuffling [49.43288037509783]
ランダムシャッフルは、局所的ランダム化データの差分プライバシー保証を増幅する。
私たちの結果は、以前の作業よりも単純で、ほぼ同じ保証で差分プライバシーに拡張された新しいアプローチに基づいています。
論文 参考訳(メタデータ) (2020-12-23T17:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。