論文の概要: On Private and Robust Bandits
- arxiv url: http://arxiv.org/abs/2302.02526v1
- Date: Mon, 6 Feb 2023 01:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 17:50:19.812382
- Title: On Private and Robust Bandits
- Title(参考訳): プライベートでロバストなバンディットについて
- Authors: Yulian Wu, Xingyu Zhou, Youming Tao and Di Wang
- Abstract要約: エージェントがハマーの汚染された重尾の報酬を受け取る、プライベートでロバストなマルチアームバンディット(MAB)について検討する。
まず、プライバシ予算、汚染レベル、重厚度に対する後悔の情報理論上の限界を特徴として、ミニマックスの低い限界を提示する。
- 参考スコア(独自算出の注目度): 8.221368229245071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study private and robust multi-armed bandits (MABs), where the agent
receives Huber's contaminated heavy-tailed rewards and meanwhile needs to
ensure differential privacy. We first present its minimax lower bound,
characterizing the information-theoretic limit of regret with respect to
privacy budget, contamination level and heavy-tailedness. Then, we propose a
meta-algorithm that builds on a private and robust mean estimation sub-routine
\texttt{PRM} that essentially relies on reward truncation and the Laplace
mechanism only. For two different heavy-tailed settings, we give specific
schemes of \texttt{PRM}, which enable us to achieve nearly-optimal regret. As
by-products of our main results, we also give the first minimax lower bound for
private heavy-tailed MABs (i.e., without contamination). Moreover, our two
proposed truncation-based \texttt{PRM} achieve the optimal trade-off between
estimation accuracy, privacy and robustness. Finally, we support our
theoretical results with experimental studies.
- Abstract(参考訳): 我々は,フーバーの汚染された重み付き報酬をエージェントが受け取り,一方ではディファレンシャル・プライバシを確保する必要があるプライベートでロバストなマルチアーム・バンディット(mabs)を研究した。
まず,プライバシ予算,汚染レベル,重み付き性に関する後悔の情報理論上の限界を特徴とするミニマックス下限を提示する。
そこで,本稿では,報酬切り出しとLaplace機構のみに依存する,プライベートかつロバストな平均推定サブルーチンであるsub-routine \texttt{PRM} に基づくメタアルゴリズムを提案する。
2つの異なる重み付き設定に対して、ほぼ最適な後悔を実現するために、 \texttt{PRM} の特定のスキームを与える。
主な結果の副産物として, プライベートヘビーテールMAB(汚染のない, 汚染のない)に対する第1のミニマックス下限を与える。
さらに,提案手法は,推定精度,プライバシ,ロバスト性の間の最適トレードオフを実現する。
最後に,実験により理論的結果を支持する。
関連論文リスト
- Private Language Models via Truncated Laplacian Mechanism [18.77713904999236]
本稿では,高次元トラカート型ラプラシアン機構と呼ばれる新しいプライベート埋め込み手法を提案する。
提案手法は,従来のプライベート単語埋め込み法に比べて分散度が低いことを示す。
注目すべきは、高いプライバシー体制であっても、私たちのアプローチは、プライベートでないシナリオに比べて、実用性がわずかに低下することです。
論文 参考訳(メタデータ) (2024-10-10T15:25:02Z) - Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Fixed-Budget Differentially Private Best Arm Identification [62.36929749450298]
差分プライバシー制約下における固定予算制度における線形包帯のベストアーム識別(BAI)について検討した。
誤差確率に基づいてミニマックス下限を導出し、下限と上限が指数関数的に$T$で崩壊することを示した。
論文 参考訳(メタデータ) (2024-01-17T09:23:25Z) - Optimal Private Discrete Distribution Estimation with One-bit Communication [63.413106413939836]
1ビット通信制約を伴う個別分布推定問題を考える。
1ビット通信制約下での最悪のトレードオフの1次を特徴付ける。
これらの結果は,1ビット通信制約下でのプライバシユーティリティトレードオフの最適依存性を示す。
論文 参考訳(メタデータ) (2023-10-17T05:21:19Z) - Bias-Aware Minimisation: Understanding and Mitigating Estimator Bias in
Private SGD [56.01810892677744]
DP-SGDにおいて,サンプルごとの勾配ノルムとプライベート勾配オラクルの推定バイアスの関連性を示す。
BAM(Bias-Aware Minimisation)を提案する。
論文 参考訳(メタデータ) (2023-08-23T09:20:41Z) - Differentially Private Episodic Reinforcement Learning with Heavy-tailed
Rewards [12.809396600279479]
差分プライバシ(DP)制約下での重み付き報酬を伴うマルコフ決定プロセス(MDP)の問題について検討する。
報酬に対するロバストな平均推定器を利用することで、まず重み付きMDPのための2つのフレームワークを提案する。
我々は,自家用RLとガウシアン以下のRLと,重み付き報酬とに根本的な相違があることを指摘した。
論文 参考訳(メタデータ) (2023-06-01T20:18:39Z) - Differential Privacy via Distributionally Robust Optimization [8.409434654561789]
非漸近的かつ無条件の最適性を保証するメカニズムのクラスを開発する。
上界 (primal) は実装可能な摂動に対応しており、その準最適性は下界 (dual) で有界である。
数値実験により、我々の摂動は、人工的および標準ベンチマーク問題に関する文献から得られた最も優れた結果よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-04-25T09:31:47Z) - On the Privacy-Robustness-Utility Trilemma in Distributed Learning [7.778461949427662]
本稿では,少数の対向マシンに対してロバスト性を保証するアルゴリズムによって得られた誤差を,まず厳密に解析する。
私たちの分析は、プライバシ、堅牢性、ユーティリティの基本的なトレードオフを示しています。
論文 参考訳(メタデータ) (2023-02-09T17:24:18Z) - Brownian Noise Reduction: Maximizing Privacy Subject to Accuracy
Constraints [53.01656650117495]
研究者と実践者の間には、プライバシとユーティリティのトレードオフの扱い方の違いがある。
ブラウン機構は、まず擬ブラウン運動の最終点に対応する高分散のガウス雑音を加えることで機能する。
我々は、古典的AboveThresholdアルゴリズムの一般化であるReduceedAboveThresholdでブラウン機構を補完する。
論文 参考訳(メタデータ) (2022-06-15T01:43:37Z) - Smoothed Differential Privacy [55.415581832037084]
微分プライバシー(DP)は、最悪のケース分析に基づいて広く受け入れられ、広く適用されているプライバシーの概念である。
本稿では, 祝賀されたスムーズな解析の背景にある最悪の平均ケースのアイデアに倣って, DPの自然な拡張を提案する。
サンプリング手順による離散的なメカニズムはDPが予測するよりもプライベートであるのに対して,サンプリング手順による連続的なメカニズムはスムーズなDP下では依然としてプライベートではないことが証明された。
論文 参考訳(メタデータ) (2021-07-04T06:55:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。