論文の概要: Dynamic Global Sensitivity for Differentially Private Contextual Bandits
- arxiv url: http://arxiv.org/abs/2208.14555v1
- Date: Tue, 30 Aug 2022 22:09:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:10:42.188214
- Title: Dynamic Global Sensitivity for Differentially Private Contextual Bandits
- Title(参考訳): 個人差分帯域に対する動的グローバル感性
- Authors: Huazheng Wang, David Zhao, Hongning Wang
- Abstract要約: モデルパラメータにラプラスノイズやガウスノイズを付加する木構造機構を用いて、微分プライベートな線形文脈帯域幅アルゴリズムを提案する。
私たちの重要な洞察は、オンライン更新中にモデルが収束するにつれて、パラメータのグローバルな感度は時間の経過とともに減少するということです。
我々は,動的大域感度とそれに対応するアルゴリズムの上側後悔境界によって付加される雑音の量について,厳密な理論的解析を行う。
- 参考スコア(独自算出の注目度): 37.413361483987835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bandit algorithms have become a reference solution for interactive
recommendation. However, as such algorithms directly interact with users for
improved recommendations, serious privacy concerns have been raised regarding
its practical use. In this work, we propose a differentially private linear
contextual bandit algorithm, via a tree-based mechanism to add Laplace or
Gaussian noise to model parameters. Our key insight is that as the model
converges during online update, the global sensitivity of its parameters
shrinks over time (thus named dynamic global sensitivity). Compared with
existing solutions, our dynamic global sensitivity analysis allows us to inject
less noise to obtain $(\epsilon, \delta)$-differential privacy with added
regret caused by noise injection in $\tilde O(\log{T}\sqrt{T}/\epsilon)$. We
provide a rigorous theoretical analysis over the amount of noise added via
dynamic global sensitivity and the corresponding upper regret bound of our
proposed algorithm. Experimental results on both synthetic and real-world
datasets confirmed the algorithm's advantage against existing solutions.
- Abstract(参考訳): banditアルゴリズムはインタラクティブレコメンデーションのリファレンスソリューションとなっている。
しかし、こうしたアルゴリズムはユーザーと直接対話して改善されたレコメンデーションに対処するため、その実用性に関して深刻なプライバシー上の懸念が持ち上がっている。
本研究では,モデルパラメータにラプラスノイズやガウス雑音を加えるツリーベース機構を用いて,微分プライベートな線形文脈バンディットアルゴリズムを提案する。
私たちの重要な洞察は、オンライン更新中にモデルが収束するにつれて、パラメータのグローバルな感度は時間とともに減少するということです。
既存のソリューションと比較して、動的大域的感度分析により、より少ないノイズを注入して、$\tilde o(\log{t}\sqrt{t}/\epsilon)$で、(\epsilon, \delta)$-differential privacyを得ることができます。
動的大域的感度により付加される雑音量と,提案するアルゴリズムの上限値に対する厳密な理論解析を行う。
合成データと実世界のデータセットの両方の実験結果は、既存のソリューションに対するアルゴリズムのアドバンテージを確認した。
関連論文リスト
- On the Complexity of Differentially Private Best-Arm Identification with
Fixed Confidence [16.295693624977563]
我々は、$epsilon$-global Differential Privacyの下で、信頼度を固定したベストアーム識別の問題について検討する。
われわれの限界は、プライバシー予算によって2つのプライバシー体制が存在することを示唆している。
我々はトップ2アルゴリズムの$epsilon$-global DP変種であるAdaP-TTを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:07:25Z) - Adaptive Noise Covariance Estimation under Colored Noise using Dynamic
Expectation Maximization [1.550120821358415]
カラーノイズを受ける動的システムのNCMを精度良く推定する,脳に触発された新しいアルゴリズムを提案する。
我々は、NCM推定器がこの自由エネルギー目標の大域的最適値に収束することを数学的に証明する。
特に,本手法は,高色雑音に対する関節雑音および状態推定において,最良ベースライン(可変ベイズ)よりも優れることを示す。
論文 参考訳(メタデータ) (2023-08-15T14:21:53Z) - Optimistic Active Exploration of Dynamical Systems [52.91573056896633]
我々はOPAXと呼ばれる活発な探索のためのアルゴリズムを開発した。
我々は,OPAXを各エピソードで解決可能な最適制御問題に還元する方法を示す。
実験の結果,OPAXは理論的に健全であるだけでなく,新規な下流タスクのゼロショット計画にも有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:26:59Z) - Online Continuous Hyperparameter Optimization for Contextual Bandits [82.18146534971156]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において一貫してより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Normalized/Clipped SGD with Perturbation for Differentially Private
Non-Convex Optimization [94.06564567766475]
DP-SGDとDP-NSGDは、センシティブなトレーニングデータを記憶する大規模モデルのリスクを軽減する。
DP-NSGD は DP-SGD よりも比較的チューニングが比較的容易であるのに対して,これらの2つのアルゴリズムは同様の精度を実現する。
論文 参考訳(メタデータ) (2022-06-27T03:45:02Z) - Greedy versus Map-based Optimized Adaptive Algorithms for
random-telegraph-noise mitigation by spectator qubits [6.305016513788048]
データストレージキュービットを可能な限り分離したままにしておくシナリオでは、ノイズプローブを追加してノイズ軽減を行うことができる。
量子ビット上の射影的測定を仮定した理論モデルを構築し、異なる測定・制御戦略の性能を導出する。
解析的および数値的に、MOAAARは、特にSQの高雑音感度状態において、Greedyアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-25T08:25:10Z) - Optimal and Efficient Dynamic Regret Algorithms for Non-Stationary
Dueling Bandits [27.279654173896372]
我々は,非定常的あるいは時間的に異なる選好の下で,$K$のDueling Banditsにおける空力的後悔の最小化問題について検討した。
これは、エージェントが各ラウンドで一対のアイテムを選択し、このペアに対する相対的な二項のウィンロスフィードバックのみを観察するオンライン学習設定である。
論文 参考訳(メタデータ) (2021-11-06T16:46:55Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。