論文の概要: Connecting Thompson Sampling and UCB: Towards More Efficient Trade-offs Between Privacy and Regret
- arxiv url: http://arxiv.org/abs/2505.02383v1
- Date: Mon, 05 May 2025 05:48:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.569333
- Title: Connecting Thompson Sampling and UCB: Towards More Efficient Trade-offs Between Privacy and Regret
- Title(参考訳): トンプソンサンプリングとUPBをつなぐ - プライバシとレグレットのより効率的なトレードオフを目指して
- Authors: Bingshan Hu, Zhiming Huang, Tianyue H. Zhang, Mathias Lécuyer, Nidhi Hegde,
- Abstract要約: DP-TS-UCBは,プライバシと後悔の交換を可能にする,新しいパラメタライズドプライベートバンディットアルゴリズムである。
DP-TS-UCBは、トンプソンサンプリングに基づくアルゴリズムにおいて、ガウス分布の反集中境界とリンク探索機構に依存している。
- 参考スコア(独自算出の注目度): 5.050520326139362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address differentially private stochastic bandit problems from the angles of exploring the deep connections among Thompson Sampling with Gaussian priors, Gaussian mechanisms, and Gaussian differential privacy (GDP). We propose DP-TS-UCB, a novel parametrized private bandit algorithm that enables to trade off privacy and regret. DP-TS-UCB satisfies $ \tilde{O} \left(T^{0.25(1-\alpha)}\right)$-GDP and enjoys an $O \left(K\ln^{\alpha+1}(T)/\Delta \right)$ regret bound, where $\alpha \in [0,1]$ controls the trade-off between privacy and regret. Theoretically, our DP-TS-UCB relies on anti-concentration bounds of Gaussian distributions and links exploration mechanisms in Thompson Sampling-based algorithms and Upper Confidence Bound-based algorithms, which may be of independent interest.
- Abstract(参考訳): 我々は,トンプソンサンプリングとガウスの先行性,ガウスのメカニズム,ガウスの差分プライバシー(GDP)との深いつながりを探索する角度から,個人的確率的包帯問題に対処する。
DP-TS-UCBは,プライバシと後悔の交換を可能にする,新しいパラメタライズドプライベートバンディットアルゴリズムである。
DP-TS-UCBは$ \tilde{O} \left(T^{0.25(1-\alpha)}\right)$-GDPを満足し、$O \left(K\ln^{\alpha+1}(T)/\Delta \right)$ regret bound, ここで$\alpha \in [0,1]$はプライバシーと後悔の間のトレードオフを制御する。
理論的には、我々のDP-TS-UCBは、トンプソンサンプリングに基づくアルゴリズムとアッパー信頼境界に基づくアルゴリズムにおいて、ガウス分布の反集中境界とリンク探索機構に依存している。
関連論文リスト
- Fixed-Budget Differentially Private Best Arm Identification [62.36929749450298]
差分プライバシー制約下における固定予算制度における線形包帯のベストアーム識別(BAI)について検討した。
誤差確率に基づいてミニマックス下限を導出し、下限と上限が指数関数的に$T$で崩壊することを示した。
論文 参考訳(メタデータ) (2024-01-17T09:23:25Z) - Tractable MCMC for Private Learning with Pure and Gaussian Differential Privacy [23.12198546384976]
後方サンプリングは$varepsilon$-pure差分プライバシー保証を提供する。
これは、$(varepsilon,delta)$-approximate DPによって引き起こされた潜在的に束縛されていないプライバシー侵害に悩まされない。
しかし実際には、マルコフ連鎖モンテカルロのような近似的なサンプリング手法を適用する必要がある。
論文 参考訳(メタデータ) (2023-10-23T07:54:39Z) - Concentrated Differential Privacy for Bandits [11.086440815804227]
本稿では,信頼性の高い集中型意思決定者による盗賊の識別プライバシー(DP)の理解に寄与する。
本稿では,AdaC-UCB,AdaC-GOPE,AdaC-OFULの3つのプライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-01T16:08:00Z) - Private Online Prediction from Experts: Separations and Faster Rates [74.52487417350221]
専門家によるオンライン予測は機械学習の基本的な問題であり、いくつかの研究がプライバシーの制約の下でこの問題を研究している。
本研究では,非適応的敵に対する最良な既存アルゴリズムの残差を克服する新たなアルゴリズムを提案し,解析する。
論文 参考訳(メタデータ) (2022-10-24T18:40:19Z) - When Privacy Meets Partial Information: A Refined Analysis of
Differentially Private Bandits [4.964737844687583]
我々は、$epsilon$-global Differential Privacy (DP) を用いたマルチアームバンディットの問題点について検討する。
我々は、UCBおよびKL-UCBアルゴリズム、すなわちAdaP-UCBとAdaP-KLUCBの$epsilon$-global DP拡張をインスタンス化する。
AdaP-KLUCBは、どちらも$epsilon$-global DPを満たす最初のアルゴリズムであり、問題依存の下位境界を乗法定数に一致する後悔の上限を与える。
論文 参考訳(メタデータ) (2022-09-06T15:26:24Z) - Batch-Size Independent Regret Bounds for Combinatorial Semi-Bandits with Probabilistically Triggered Arms or Independent Arms [59.8188496313214]
半帯域 (CMAB) について検討し, 半帯域 (CMAB) におけるバッチサイズ (K$) の依存性の低減に着目した。
まず,確率的に引き起こされるアーム(CMAB-T)を用いたCMABの設定に対して,分散を考慮した信頼区間を持つBCUCB-Tアルゴリズムを提案する。
次に,独立アームを用いた非トリガ型CMABの設定に対して,TPVM条件の非トリガ型を利用したSESCBアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-31T13:09:39Z) - The Poisson binomial mechanism for secure and private federated learning [19.399122892615573]
本稿では,分散平均推定(DME)のための離散的差分プライバシー機構を導入し,フェデレーション学習と分析に応用する。
我々は、プライバシー保証の厳密な分析を行い、連続的なガウス機構と同じプライバシーと精度のトレードオフを達成することを示す。
論文 参考訳(メタデータ) (2022-07-09T05:46:28Z) - Normalized/Clipped SGD with Perturbation for Differentially Private
Non-Convex Optimization [94.06564567766475]
DP-SGDとDP-NSGDは、センシティブなトレーニングデータを記憶する大規模モデルのリスクを軽減する。
DP-NSGD は DP-SGD よりも比較的チューニングが比較的容易であるのに対して,これらの2つのアルゴリズムは同様の精度を実現する。
論文 参考訳(メタデータ) (2022-06-27T03:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。