論文の概要: Structured Reinforcement Learning for Incentivized Stochastic Covert Optimization
- arxiv url: http://arxiv.org/abs/2405.07415v1
- Date: Mon, 13 May 2024 01:29:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 15:04:30.333389
- Title: Structured Reinforcement Learning for Incentivized Stochastic Covert Optimization
- Title(参考訳): 確率被覆最適化のための構造強化学習
- Authors: Adit Jain, Vikram Krishnamurthy,
- Abstract要約: 勾配アルゴリズム(SG)を制御して、盗聴者から局所定常点の推定を隠蔽することができる。
本稿では,局所定常点の推定を盗聴者から隠蔽するために,勾配アルゴリズム(SG)をいかに制御するかを検討する。
- 参考スコア(独自算出の注目度): 13.440621354486906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies how a stochastic gradient algorithm (SG) can be controlled to hide the estimate of the local stationary point from an eavesdropper. Such problems are of significant interest in distributed optimization settings like federated learning and inventory management. A learner queries a stochastic oracle and incentivizes the oracle to obtain noisy gradient measurements and perform SG. The oracle probabilistically returns either a noisy gradient of the function} or a non-informative measurement, depending on the oracle state and incentive. The learner's query and incentive are visible to an eavesdropper who wishes to estimate the stationary point. This paper formulates the problem of the learner performing covert optimization by dynamically incentivizing the stochastic oracle and obfuscating the eavesdropper as a finite-horizon Markov decision process (MDP). Using conditions for interval-dominance on the cost and transition probability structure, we show that the optimal policy for the MDP has a monotone threshold structure. We propose searching for the optimal stationary policy with the threshold structure using a stochastic approximation algorithm and a multi-armed bandit approach. The effectiveness of our methods is numerically demonstrated on a covert federated learning hate-speech classification task.
- Abstract(参考訳): 本稿では,確率勾配アルゴリズム(SG)を用いて,局所定常点の推定値を盗聴者から隠蔽する方法について検討する。
このような問題は、フェデレートラーニングや在庫管理といった分散最適化設定に大きな関心を寄せている。
学習者は確率的オラクルを問合せし、オラクルにインセンティブを与えてノイズのある勾配測定を行い、SGを実行する。
オラクルは、オラクルの状態とインセンティブに応じて、関数の雑音的な勾配または非形式的な測定を確率的に返す。
学習者のクエリとインセンティブは、静止点を見積もる盗聴者によって見ることができる。
本稿では,確率的オラクルを動的にインセンティブ化し,盗聴者を有限水平マルコフ決定プロセス(MDP)として難読化することで,包括的最適化を行う学習者の問題を定式化する。
コストと遷移確率構造における区間支配条件を用いて, MDP の最適ポリシがモノトーン閾値構造を持つことを示す。
本稿では,確率近似アルゴリズムとマルチアームバンディット手法を用いて,しきい値構造を用いた最適定常ポリシーの探索を提案する。
本手法の有効性は,隠れた学習ヘイト音声分類タスクにおいて数値的に実証される。
関連論文リスト
- Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Controlling Federated Learning for Covertness [15.878313629774269]
学習者は、ノイズの多い勾配評価を提供する分散オラクルを何度もクエリすることで、関数の$f$を最小化することを目指している。
同時に、学習者は、学習者のクエリを監視する悪意のある盗聴者から$argmin f$を隠そうとする。
本稿では,学習者が学習と難読化のどちらを動的に選択するかという,textitcovert や textitlearner-private 最適化の問題について考察する。
論文 参考訳(メタデータ) (2023-08-17T07:16:41Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - An Efficient Algorithm for Deep Stochastic Contextual Bandits [10.298368632706817]
コンテキスト境界の問題では、エージェントは特定の観察されたコンテキストに基づいてアクションを選択し、反復よりも報酬を最大化します。
近年、ディープニューラルネットワーク(DNN)を用いて行動に対する期待される報酬を予測する研究がいくつか行われ、勾配に基づく手法で訓練されている。
論文 参考訳(メタデータ) (2021-04-12T16:34:43Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Stochastic Learning for Sparse Discrete Markov Random Fields with
Controlled Gradient Approximation Error [10.381976180143328]
離散マルコフ確率場(MRF)に対する$L_$正規化極大推定器(MLE)問題について検討する。
これらの課題に対処するために、近位勾配(SPG)と呼ばれる検証可能な学習フレームワークを検討する。
勾配近似の品質を検査し、制御するための新しい検証可能な境界を提供する。
論文 参考訳(メタデータ) (2020-05-12T22:48:42Z) - StochasticRank: Global Optimization of Scale-Free Discrete Functions [28.224889996383396]
本稿では,ランキングメトリクスを直接最適化する強力な,効率的なフレームワークを提案する。
古典的平滑化アプローチは偏見を導入し, 適切な偏見の普遍解を示す。
我々のフレームワークは任意のスケールフリー離散損失関数に適用できる。
論文 参考訳(メタデータ) (2020-03-04T15:27:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。