論文の概要: Federated Linear Contextual Bandits with User-level Differential Privacy
- arxiv url: http://arxiv.org/abs/2306.05275v1
- Date: Thu, 8 Jun 2023 15:21:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 13:47:38.036401
- Title: Federated Linear Contextual Bandits with User-level Differential Privacy
- Title(参考訳): ユーザレベルのディファレンシャルプライバシを持つフェデレーション線形コンテキストバンディット
- Authors: Ruiquan Huang, Huanyu Zhang, Luca Melis, Milan Shen, Meisam Hajzinia,
Jing Yang
- Abstract要約: 本稿では,ユーザレベル差分プライバシ(DP)の概念に基づく連立線形文脈帯域について検討する。
まず,DP の様々な定義を逐次決定設定で適用可能な統合された帯域幅フレームワークを提案する。
次に, ユーザレベルの集中型DP (CDP) とローカルDP (LDP) をフェデレート・バンディット・フレームワークに正式に導入し, 学習後悔と対応するDP保証との根本的なトレードオフについて検討する。
- 参考スコア(独自算出の注目度): 8.396384861175799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies federated linear contextual bandits under the notion of
user-level differential privacy (DP). We first introduce a unified federated
bandits framework that can accommodate various definitions of DP in the
sequential decision-making setting. We then formally introduce user-level
central DP (CDP) and local DP (LDP) in the federated bandits framework, and
investigate the fundamental trade-offs between the learning regrets and the
corresponding DP guarantees in a federated linear contextual bandits model. For
CDP, we propose a federated algorithm termed as \robin and show that it is
near-optimal in terms of the number of clients $M$ and the privacy budget
$\varepsilon$ by deriving nearly-matching upper and lower regret bounds when
user-level DP is satisfied. For LDP, we obtain several lower bounds, indicating
that learning under user-level $(\varepsilon,\delta)$-LDP must suffer a regret
blow-up factor at least {$\min\{1/\varepsilon,M\}$ or
$\min\{1/\sqrt{\varepsilon},\sqrt{M}\}$} under different conditions.
- Abstract(参考訳): 本稿では,ユーザレベルのディファレンシャルプライバシ(dp)という概念に基づく,連帯線形コンテキストバンディットについて検討する。
まず,DP の様々な定義を逐次決定設定で適用可能な統合された帯域幅フレームワークを提案する。
次に,federated banditsフレームワークにおいて,ユーザレベル中心dp (cdp) とローカルdp (ldp) を正式に導入し,federated linear context banditsモデルにおいて,学習後悔と対応するdp保証との間の根本的なトレードオフを検討する。
cdp では \robin と呼ばれるフェデレーションアルゴリズムを提案し,ユーザレベルのdp が満たされた場合の上位および下位の後悔限度を導出することにより,クライアント数 m$ とプライバシ予算 $\varepsilon$ の点でほぼ最適であることを示す。
LDP の場合、ユーザレベルの $(\varepsilon,\delta)$-LDP での学習は、少なくとも {$\min\{1/\varepsilon,M\}$ または $\min\{1/\sqrt{\varepsilon},\sqrt{M}\}$} で異なる条件下では、後悔の吹き上げ要因を負わなければならないことを示す。
関連論文リスト
- Differentially Private Best-Arm Identification [14.916947598339988]
ベストアーム識別(BAI)問題は、データセンシティブなアプリケーションに徐々に使われている。
これらのアプリケーションによって引き起こされるデータプライバシの懸念に触発され、ローカルモデルと中央モデルの両方に一定の信頼を保ちながら、BAIの問題を研究する。
論文 参考訳(メタデータ) (2024-06-10T16:02:48Z) - Fixed-Budget Differentially Private Best Arm Identification [62.36929749450298]
差分プライバシー制約下における固定予算制度における線形包帯のベストアーム識別(BAI)について検討した。
誤差確率に基づいてミニマックス下限を導出し、下限と上限が指数関数的に$T$で崩壊することを示した。
論文 参考訳(メタデータ) (2024-01-17T09:23:25Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - When Privacy Meets Partial Information: A Refined Analysis of
Differentially Private Bandits [4.964737844687583]
我々は、$epsilon$-global Differential Privacy (DP) を用いたマルチアームバンディットの問題点について検討する。
我々は、UCBおよびKL-UCBアルゴリズム、すなわちAdaP-UCBとAdaP-KLUCBの$epsilon$-global DP拡張をインスタンス化する。
AdaP-KLUCBは、どちらも$epsilon$-global DPを満たす最初のアルゴリズムであり、問題依存の下位境界を乗法定数に一致する後悔の上限を与える。
論文 参考訳(メタデータ) (2022-09-06T15:26:24Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Normalized/Clipped SGD with Perturbation for Differentially Private
Non-Convex Optimization [94.06564567766475]
DP-SGDとDP-NSGDは、センシティブなトレーニングデータを記憶する大規模モデルのリスクを軽減する。
DP-NSGD は DP-SGD よりも比較的チューニングが比較的容易であるのに対して,これらの2つのアルゴリズムは同様の精度を実現する。
論文 参考訳(メタデータ) (2022-06-27T03:45:02Z) - Differentially Private Exploration in Reinforcement Learning with Linear
Representation [102.17246636801649]
まず,線形混合MDP(Ayob et al., 2020)の設定(モデルベース設定)について検討し,共同・局所微分プライベート(DP)探索を統一的に分析するための枠組みを提供する。
我々はさらに、線形MDP(Jin et al., 2020)におけるプライバシー保護探索(つまりモデルフリー設定)について研究し、$widetildeO(sqrtK/epsilon)$ regret bound for $(epsilon,delta)を提供する。
論文 参考訳(メタデータ) (2021-12-02T19:59:50Z) - Locally Differentially Private (Contextual) Bandits Learning [55.63825598391525]
本論文では,局所的差分性(LDP)バンディット学習について検討する。
我々は,DP保証を用いて,文脈自由な帯域幅学習問題を解くことのできる,シンプルなブラックボックス削減フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-01T04:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。