論文の概要: Local Differential Privacy for Sequential Decision Making in a Changing
Environment
- arxiv url: http://arxiv.org/abs/2301.00561v1
- Date: Mon, 2 Jan 2023 08:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 16:15:16.606049
- Title: Local Differential Privacy for Sequential Decision Making in a Changing
Environment
- Title(参考訳): 変化環境におけるシーケンス決定のための局所微分プライバシー
- Authors: Pratik Gajane
- Abstract要約: 我々は、変化する環境において、シーケンシャルな意思決定シナリオにおいて高いユーティリティを提供しながら、プライバシ保護の問題を研究する。
高いユーティリティを提供しながら、所望の局所差分プライバシーレベルを保証できる、証明可能な最適メカニズムを提案する。
- 参考スコア(独自算出の注目度): 0.6526824510982799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of preserving privacy while still providing high utility
in sequential decision making scenarios in a changing environment. We consider
abruptly changing environment: the environment remains constant during periods
and it changes at unknown time instants. To formulate this problem, we propose
a variant of multi-armed bandits called non-stationary stochastic corrupt
bandits. We construct an algorithm called SW-KLUCB-CF and prove an upper bound
on its utility using the performance measure of regret. The proven regret upper
bound for SW-KLUCB-CF is near-optimal in the number of time steps and matches
the best known bound for analogous problems in terms of the number of time
steps and the number of changes. Moreover, we present a provably optimal
mechanism which can guarantee the desired level of local differential privacy
while providing high utility.
- Abstract(参考訳): 我々は,変化する環境における逐次意思決定シナリオにおいて,高い実用性を提供しながら,プライバシの保護という課題について検討する。
環境は一定であり、未知の瞬間に変化する。
この問題を定式化するために,非定常確率的乱雑包帯と呼ばれる多武装包帯の変種を提案する。
SW-KLUCB-CFと呼ばれるアルゴリズムを構築し,その効用上界を後悔の度合いで証明する。
SW-KLUCB-CFの証明された後悔の上限は、時間ステップの数でほぼ最適であり、時間ステップの数と変化の数で類似した問題に対して最もよく知られた上限と一致する。
さらに,高い実用性を提供しながら,所望の局所微分プライバシーのレベルを保証できる,実現可能な最適メカニズムを提案する。
関連論文リスト
- Act as You Learn: Adaptive Decision-Making in Non-Stationary Markov
Decision Processes [5.276882857467777]
textitAdaptive Monte Carlo Tree Search (ADA-MCTS) という検索アルゴリズムを提案する。
エージェントは時間とともに環境の更新されたダイナミクスを学習し、そのエージェントが学習する時、すなわち、そのエージェントが知識が更新された状態空間の領域にいる場合、悲観的にならないことを示す。
論文 参考訳(メタデータ) (2024-01-03T17:19:54Z) - Safe Sequential Optimization for Switching Environments [0.0]
本稿では,時間とともに切り替わる未知の時間変化関数を最大化するために,逐次決定エージェントを設計する問題を考察する。
本稿では、Adaptive-SafeOptと呼ばれるポリシーを提案し、シミュレーションによる性能評価を行う。
論文 参考訳(メタデータ) (2023-11-03T05:41:42Z) - A Risk-Averse Framework for Non-Stationary Stochastic Multi-Armed
Bandits [0.0]
医療や金融のような高ボラティリティの分野では、素直な報酬アプローチは学習問題の複雑さを正確に捉えないことが多い。
非定常環境で動作する適応型リスク認識戦略の枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-24T19:29:13Z) - Cooperative coevolutionary Modified Differential Evolution with
Distance-based Selection for Large-Scale Optimization Problems in noisy
environments through an automatic Random Grouping [3.274290296343038]
本稿では,雑音環境における大規模最適化問題を解決するために,自動ランダムグループ化(aRG)を提案する。
また、ノイズの多い環境での能力を高めるために、MDE-DS(Modified Evolution with Distance-based Selection)を導入する。
提案手法は,ノイズの多い環境下でLSOPを解くための幅広い可能性があり,高次元問題への拡張が容易である。
論文 参考訳(メタデータ) (2022-09-02T01:37:17Z) - Optimal Algorithms for Mean Estimation under Local Differential Privacy [55.32262879188817]
そこで本研究では,PrivUnitが局所的プライベートな乱数化器群間の最適分散を実現することを示す。
また,ガウス分布に基づくPrivUnitの新たな変種も開発しており,数学的解析に適しており,同じ最適性保証を享受できる。
論文 参考訳(メタデータ) (2022-05-05T06:43:46Z) - Finite-time Analysis of Globally Nonstationary Multi-Armed Bandits [14.817218449140338]
データストリーム上の文献からの適応的ウィンドウ化技術を活用した帯域幅アルゴリズムである適応的リセット帯域幅(ADR-bandit)を導入する。
ADR-banditは,大域的な変化と呼ばれる急激な変化や漸進的な変化が発生すると,ほぼ最適な性能を示すことを示す。
実験の結果,提案アルゴリズムは,合成環境や実環境において,既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-23T19:02:52Z) - On the Sample Complexity and Metastability of Heavy-tailed Policy Search
in Continuous Control [47.71156648737803]
強化学習(Reinforcement learning)は、システムダイナミクスモデルなしで、時間をかけてインセンティブを順次明らかにする、インタラクティブな意思決定のためのフレームワークである。
定義された連鎖を特徴付け、テールインデックスのレヴィプロセスに関連するポリシーがより広いピークに収まることを識別する。
論文 参考訳(メタデータ) (2021-06-15T20:12:44Z) - Random Shuffling Beats SGD Only After Many Epochs on Ill-Conditioned
Problems [55.40911408462676]
その結果,非置換型SGDエンファンドは最悪のケース境界において,非置換型SGDに対して顕著な改善は得られなかった。
機械学習や他の分野の多くの問題は条件が不適切であり、大きなデータセットが関与しているため、非置換が現実的な予算のための非置換サンプリングよりも必ずしも改善しないことを示している。
論文 参考訳(メタデータ) (2021-06-12T23:07:27Z) - Optimization Issues in KL-Constrained Approximate Policy Iteration [48.24321346619156]
多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。
標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。
TRPO、MPO、VMPOなどの一般的な実用的なアルゴリズムは、連続ポリシーのKL分割に関する制約によって正規化を置き換える。
論文 参考訳(メタデータ) (2021-02-11T19:35:33Z) - Privacy Preserving Recalibration under Domain Shift [119.21243107946555]
本稿では,差分プライバシー制約下での校正問題の性質を抽象化する枠組みを提案する。
また、新しいリカレーションアルゴリズム、精度温度スケーリングを設計し、プライベートデータセットの事前処理より優れています。
論文 参考訳(メタデータ) (2020-08-21T18:43:37Z) - Corruption-Tolerant Gaussian Process Bandit Optimization [130.60115798580136]
未知(典型的には非生成)関数を有界ノルムで最適化する問題を考察する。
我々は「高速だが非ローバスト」と「スロー」に基づく高速スローGP-UCBに基づくアルゴリズムを提案する。
ある種の依存関係は、汚職レベルによっては要求できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-03-04T09:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。