論文の概要: Locally Differentially Private (Contextual) Bandits Learning
- arxiv url: http://arxiv.org/abs/2006.00701v4
- Date: Fri, 15 Jan 2021 07:03:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 06:05:12.953534
- Title: Locally Differentially Private (Contextual) Bandits Learning
- Title(参考訳): 局所的微分的プライベート(文脈的)バンディット学習
- Authors: Kai Zheng, Tianle Cai, Weiran Huang, Zhenguo Li, Liwei Wang
- Abstract要約: 本論文では,局所的差分性(LDP)バンディット学習について検討する。
我々は,DP保証を用いて,文脈自由な帯域幅学習問題を解くことのできる,シンプルなブラックボックス削減フレームワークを提案する。
- 参考スコア(独自算出の注目度): 55.63825598391525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study locally differentially private (LDP) bandits learning in this paper.
First, we propose simple black-box reduction frameworks that can solve a large
family of context-free bandits learning problems with LDP guarantee. Based on
our frameworks, we can improve previous best results for private bandits
learning with one-point feedback, such as private Bandits Convex Optimization,
and obtain the first result for Bandits Convex Optimization (BCO) with
multi-point feedback under LDP. LDP guarantee and black-box nature make our
frameworks more attractive in real applications compared with previous
specifically designed and relatively weaker differentially private (DP)
context-free bandits algorithms. Further, we extend our $(\varepsilon,
\delta)$-LDP algorithm to Generalized Linear Bandits, which enjoys a sub-linear
regret $\tilde{O}(T^{3/4}/\varepsilon)$ and is conjectured to be nearly
optimal. Note that given the existing $\Omega(T)$ lower bound for DP contextual
linear bandits (Shariff & Sheffe, 2018), our result shows a fundamental
difference between LDP and DP contextual bandits learning.
- Abstract(参考訳): 本論文では,局所的差分性(LDP)バンディット学習について検討する。
まず,ldpの保証により,コンテキストフリーなバンディット学習の大規模ファミリーを解決可能な,シンプルなブラックボックス削減フレームワークを提案する。
提案手法に基づき,プライベートバンディット凸最適化などの1点フィードバックを用いたプライベートバンディット学習のこれまでの最良結果を改善し,ldp下での多点フィードバックによるバンディット凸最適化(bco)の最初の結果を得ることができる。
ldpの保証とブラックボックスの性質は、以前の特別な設計と比較的弱い差分プライベート(dp)コンテキストフリーバンディットアルゴリズムと比較して、実際のアプリケーションでフレームワークをより魅力的にします。
さらに、我々の$(\varepsilon, \delta)$-LDPアルゴリズムを一般化線形帯域に拡張し、サブ線形後悔$\tilde{O}(T^{3/4}/\varepsilon)$を楽しみ、ほぼ最適であると推測される。
既存のDPコンテキスト線形帯域に対する$\Omega(T)$ローバウンド(Shariff & Sheffe, 2018)を考えると, LDPとDPコンテキスト線形帯域学習の根本的な違いは明らかである。
関連論文リスト
- Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - Federated Linear Contextual Bandits with User-level Differential Privacy [8.396384861175799]
本稿では,ユーザレベル差分プライバシ(DP)の概念に基づく連立線形文脈帯域について検討する。
まず,DP の様々な定義を逐次決定設定で適用可能な統合された帯域幅フレームワークを提案する。
次に, ユーザレベルの集中型DP (CDP) とローカルDP (LDP) をフェデレート・バンディット・フレームワークに正式に導入し, 学習後悔と対応するDP保証との根本的なトレードオフについて検討する。
論文 参考訳(メタデータ) (2023-06-08T15:21:47Z) - Differentially Private Episodic Reinforcement Learning with Heavy-tailed
Rewards [12.809396600279479]
差分プライバシ(DP)制約下での重み付き報酬を伴うマルコフ決定プロセス(MDP)の問題について検討する。
報酬に対するロバストな平均推定器を利用することで、まず重み付きMDPのための2つのフレームワークを提案する。
我々は,自家用RLとガウシアン以下のRLと,重み付き報酬とに根本的な相違があることを指摘した。
論文 参考訳(メタデータ) (2023-06-01T20:18:39Z) - When Privacy Meets Partial Information: A Refined Analysis of
Differentially Private Bandits [4.964737844687583]
我々は、$epsilon$-global Differential Privacy (DP) を用いたマルチアームバンディットの問題点について検討する。
我々は、UCBおよびKL-UCBアルゴリズム、すなわちAdaP-UCBとAdaP-KLUCBの$epsilon$-global DP拡張をインスタンス化する。
AdaP-KLUCBは、どちらも$epsilon$-global DPを満たす最初のアルゴリズムであり、問題依存の下位境界を乗法定数に一致する後悔の上限を与える。
論文 参考訳(メタデータ) (2022-09-06T15:26:24Z) - Generalized Linear Bandits with Local Differential Privacy [4.922800530841394]
パーソナライズドメディカルやオンライン広告などの多くのアプリケーションは、効果的な学習のために個人固有の情報を活用する必要がある。
これは、局所微分プライバシー(LDP)というプライバシーの厳格な概念を文脈的盗賊に導入する動機となっている。
本稿では,一般線形バンドレットに対するLDPアルゴリズムを設計し,非プライバシ設定と同じ後悔点を実現する。
論文 参考訳(メタデータ) (2021-06-07T06:42:00Z) - Optimal Rates of (Locally) Differentially Private Heavy-tailed
Multi-Armed Bandits [11.419534203345187]
本稿では,DP/LDPモデルにおけるマルチアームバンディット(MAB)の問題について検討する。
本稿では,SEアルゴリズムの局所的プライベートかつロバストなバージョンとみなすアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-04T16:17:21Z) - Towards Minimax Optimal Best Arm Identification in Linear Bandits [95.22854522340938]
固定予算設定における線形包帯における最適な腕識別の問題について検討する。
G-最適設計の特性を活用し、アーム割り当て規則に組み込むことにより、パラメータフリーなアルゴリズムを設計する。
OD-LinBAIの故障確率に関する理論的解析を行った。
論文 参考訳(メタデータ) (2021-05-27T09:19:10Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。