論文の概要: Multi-Armed Bandits with Local Differential Privacy
- arxiv url: http://arxiv.org/abs/2007.03121v1
- Date: Mon, 6 Jul 2020 23:36:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 02:19:00.996695
- Title: Multi-Armed Bandits with Local Differential Privacy
- Title(参考訳): 局所微分プライバシーを持つマルチアーマッドバンド
- Authors: Wenbo Ren, Xingyu Zhou, Jia Liu, Ness B. Shroff
- Abstract要約: バンディットシステムでは、報酬は個人の情報を含むユーザーの活動を指すことがある。
与えられた LDP 保証を用いて,MAB アルゴリズムの高次および低次境界について検討する。
我々は、下限を証明し、後悔の上限が下限を一定要素まで一致させるアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 32.538737981996405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the problem of regret minimization for multi-armed
bandit (MAB) problems with local differential privacy (LDP) guarantee. In
stochastic bandit systems, the rewards may refer to the users' activities,
which may involve private information and the users may not want the agent to
know. However, in many cases, the agent needs to know these activities to
provide better services such as recommendations and news feeds. To handle this
dilemma, we adopt differential privacy and study the regret upper and lower
bounds for MAB algorithms with a given LDP guarantee. In this paper, we prove a
lower bound and propose algorithms whose regret upper bounds match the lower
bound up to constant factors. Numerical experiments also confirm our
conclusions.
- Abstract(参考訳): 本稿では,ローカルディファレンシャルプライバシ(LDP)を保証したマルチアームバンディット(MAB)問題に対する後悔の最小化問題について検討する。
確率的なバンディットシステムでは、報酬は個人の情報を含むユーザーの活動を指し、ユーザーはエージェントに知られたくないかもしれない。
しかし、多くの場合、エージェントはレコメンデーションやニュースフィードなどのより良いサービスを提供するためにこれらの活動を知る必要がある。
このジレンマに対処するために、差分プライバシーを採用し、所与の LDP 保証付きMAB アルゴリズムの高次および低次境界について検討する。
本稿では,下限を証明し,後悔上限が下限下限から定数までと一致するアルゴリズムを提案する。
数値実験も我々の結論を裏付ける。
関連論文リスト
- Differentially Private Reinforcement Learning with Self-Play [18.124829682487558]
差分プライバシー制約を伴うマルチエージェント強化学習(multi-agent RL)の問題について検討する。
まず,ジョイントDP (JDP) とローカルDP (LDP) の定義を2プレイヤーゼロサム・エピソード・マルコフゲームに拡張する。
我々は、楽観的なナッシュ値とベルンシュタイン型ボーナスの民営化に基づく証明可能なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-04-11T08:42:51Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Concentrated Differential Privacy for Bandits [11.086440815804227]
本稿では,信頼性の高い集中型意思決定者による盗賊の識別プライバシー(DP)の理解に寄与する。
本稿では,AdaC-UCB,AdaC-GOPE,AdaC-OFULの3つのプライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-01T16:08:00Z) - On Differentially Private Federated Linear Contextual Bandits [9.51828574518325]
我々は、差分プライバシーの下で、クロスサイロフェデレーション線形文脈帯域問題(LCB)を考える。
現状の3つの課題は, (i) 主張されたプライバシ保護の失敗, (ii) ノイズの計算ミスによる不正確な後悔,である。
我々は,信頼されたサーバを使わずに,アルゴリズムがほぼ最適であることを示す。
論文 参考訳(メタデータ) (2023-02-27T16:47:49Z) - Privacy Amplification via Shuffling for Linear Contextual Bandits [51.94904361874446]
ディファレンシャルプライバシ(DP)を用いた文脈線形バンディット問題について検討する。
プライバシのシャッフルモデルを利用して,JDP と LDP のプライバシ/ユーティリティトレードオフを実現することができることを示す。
以上の結果から,ローカルプライバシを保ちながらシャッフルモデルを活用することで,JDPとDPのトレードオフを得ることが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T15:23:28Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Local Differential Privacy for Regret Minimization in Reinforcement
Learning [33.679678503441565]
有限水平マルコフ決定過程(MDP)の文脈におけるプライバシーの研究
ローカルディファレンシャルプライバシ(LDP)フレームワークを活用することで、RLのプライバシの概念を定式化する。
本稿では,$varepsilon$-LDP要求を満たす楽観的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T14:13:26Z) - Constrained regret minimization for multi-criterion multi-armed bandits [5.349852254138086]
リスク制約を条件として,所与の時間的地平線上での後悔の最小化の問題について検討する。
本稿では,対数的後悔を保証するリスク制約付き低信頼境界アルゴリズムを提案する。
我々は,リスク制約付き後悔最小化アルゴリズムの性能に低い限界を証明した。
論文 参考訳(メタデータ) (2020-06-17T04:23:18Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。