論文の概要: Controlling Federated Learning for Covertness
- arxiv url: http://arxiv.org/abs/2308.08825v1
- Date: Thu, 17 Aug 2023 07:16:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 17:34:53.823244
- Title: Controlling Federated Learning for Covertness
- Title(参考訳): カバーネスのためのフェデレーション学習の制御
- Authors: Adit Jain and Vikram Krishnamurthy
- Abstract要約: 学習者は、ノイズの多い勾配評価を提供する分散オラクルを何度もクエリすることで、関数の$f$を最小化することを目指している。
同時に、学習者は、学習者のクエリを監視する悪意のある盗聴者から$argmin f$を隠そうとする。
本稿では,学習者が学習と難読化のどちらを動的に選択するかという,textitcovert や textitlearner-private 最適化の問題について考察する。
- 参考スコア(独自算出の注目度): 15.878313629774269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A learner aims to minimize a function $f$ by repeatedly querying a
distributed oracle that provides noisy gradient evaluations. At the same time,
the learner seeks to hide $\arg\min f$ from a malicious eavesdropper that
observes the learner's queries. This paper considers the problem of
\textit{covert} or \textit{learner-private} optimization, where the learner has
to dynamically choose between learning and obfuscation by exploiting the
stochasticity. The problem of controlling the stochastic gradient algorithm for
covert optimization is modeled as a Markov decision process, and we show that
the dynamic programming operator has a supermodular structure implying that the
optimal policy has a monotone threshold structure. A computationally efficient
policy gradient algorithm is proposed to search for the optimal querying policy
without knowledge of the transition probabilities. As a practical application,
our methods are demonstrated on a hate speech classification task in a
federated setting where an eavesdropper can use the optimal weights to generate
toxic content, which is more easily misclassified. Numerical results show that
when the learner uses the optimal policy, an eavesdropper can only achieve a
validation accuracy of $52\%$ with no information and $69\%$ when it has a
public dataset with 10\% positive samples compared to $83\%$ when the learner
employs a greedy policy.
- Abstract(参考訳): 学習者は、ノイズの多い勾配評価を提供する分散オラクルに繰り返し問い合わせることで、関数$f$を最小化することを目指している。
同時に、学習者は学習者のクエリを観察する悪意のある盗聴者から$\arg\min f$を隠そうとする。
本稿では,学習者が確率性を生かして学習と難読化のどちらを動的に選択する必要がある場合の, \textit{covert} または \textit{learner-private} 最適化の問題を考える。
隠れ最適化のための確率勾配アルゴリズムを制御する問題はマルコフ決定過程としてモデル化され、動的プログラム演算子が超モジュラ構造を持ち、最適ポリシーが単調なしきい値構造を持つことを示す。
遷移確率を知らずに最適なクエリポリシーを探索するために,計算効率の良いポリシ勾配アルゴリズムを提案する。
本手法は, 盗聴者が最適な重みを使って有害なコンテンツを生成することができるフェデレーション設定において, ヘイトスピーチ分類タスクにおいて, より容易に誤分類できることを示す。
数値的な結果から,学習者が最適ポリシーを使用する場合,学習者が強欲的なポリシーを採用する場合と比較して,正のサンプルが10倍の公開データセットを持つ場合,eavesdropperは情報のない5,2\%$と6,9\%の検証精度しか達成できないことがわかった。
関連論文リスト
- Traversing Pareto Optimal Policies: Provably Efficient Multi-Objective Reinforcement Learning [14.260168974085376]
本稿では多目的強化学習(MORL)について検討する。
複数の報酬関数の存在下で最適なポリシーを学ぶことに焦点を当てている。
MORLの成功にもかかわらず、様々なMORL最適化目標と効率的な学習アルゴリズムについて十分な理解が得られていない。
論文 参考訳(メタデータ) (2024-07-24T17:58:49Z) - Structured Reinforcement Learning for Incentivized Stochastic Covert Optimization [13.440621354486906]
勾配アルゴリズム(SG)を制御して、盗聴者から局所定常点の推定を隠蔽することができる。
本稿では,局所定常点の推定を盗聴者から隠蔽するために,勾配アルゴリズム(SG)をいかに制御するかを検討する。
論文 参考訳(メタデータ) (2024-05-13T01:29:48Z) - Super Non-singular Decompositions of Polynomials and their Application to Robustly Learning Low-degree PTFs [39.468324211376505]
低次しきい値関数 (PTF) の, 対向汚職の一定割合の存在下での効率的な学習性について検討した。
提案アルゴリズムは,線形しきい値関数の学習に使用されていた局所化手法に着想を得た反復的手法を用いている。
論文 参考訳(メタデータ) (2024-03-31T02:03:35Z) - Target-based Surrogates for Stochastic Optimization [26.35752393302125]
我々は(おそらく)勾配を計算するのに費用がかかる関数の最小化を考える。
このような機能は、計算強化学習、模倣学習、および敵の訓練で広く用いられている。
我々のフレームワークは、最適化アルゴリズムを用いて、効率的に最小化できるサロゲートを構築することができる。
論文 参考訳(メタデータ) (2023-02-06T08:08:34Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Learning with User-Level Privacy [61.62978104304273]
ユーザレベルの差分プライバシー制約下での学習課題を,アルゴリズムを用いて解析する。
個々のサンプルのプライバシーのみを保証するのではなく、ユーザレベルのdpはユーザの貢献全体を保護します。
プライバシコストが$tau$に比例した$K$適応的に選択されたクエリのシーケンスにプライベートに答えるアルゴリズムを導き出し、私たちが検討する学習タスクを解決するためにそれを適用します。
論文 参考訳(メタデータ) (2021-02-23T18:25:13Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。