論文の概要: Manipulating Reinforcement Learning: Poisoning Attacks on Cost Signals
- arxiv url: http://arxiv.org/abs/2002.03827v2
- Date: Mon, 20 Jul 2020 22:55:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 04:45:40.847568
- Title: Manipulating Reinforcement Learning: Poisoning Attacks on Cost Signals
- Title(参考訳): 強化学習を操作する - コスト信号に対する毒殺攻撃
- Authors: Yunhan Huang and Quanyan Zhu
- Abstract要約: 本章は、強化学習(RL)におけるサイバー攻撃の出現について研究する。
操作中のTD($lambda$)と$Q$-learningアルゴリズムの性能劣化を分析する。
TD($lambda$)学習のケーススタディは、結果を相関付けるために提供される。
- 参考スコア(独自算出の注目度): 22.755411056179813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This chapter studies emerging cyber-attacks on reinforcement learning (RL)
and introduces a quantitative approach to analyze the vulnerabilities of RL.
Focusing on adversarial manipulation on the cost signals, we analyze the
performance degradation of TD($\lambda$) and $Q$-learning algorithms under the
manipulation. For TD($\lambda$), the approximation learned from the manipulated
costs has an approximation error bound proportional to the magnitude of the
attack. The effect of the adversarial attacks on the bound does not depend on
the choice of $\lambda$. In $Q$-learning, we show that $Q$-learning algorithms
converge under stealthy attacks and bounded falsifications on cost signals. We
characterize the relation between the falsified cost and the $Q$-factors as
well as the policy learned by the learning agent which provides fundamental
limits for feasible offensive and defensive moves. We propose a robust region
in terms of the cost within which the adversary can never achieve the targeted
policy. We provide conditions on the falsified cost which can mislead the agent
to learn an adversary's favored policy. A case study of TD($\lambda$) learning
is provided to corroborate the results.
- Abstract(参考訳): 本章は、強化学習(RL)におけるサイバー攻撃の出現について研究し、RLの脆弱性を分析するための定量的アプローチを紹介する。
コスト信号の逆操作に着目し,td($\lambda$)と$q$-learningアルゴリズムの性能劣化を解析した。
TD($\lambda$)の場合、操作されたコストから得られた近似は、攻撃の大きさに比例する近似誤差を持つ。
境界に対する逆攻撃の効果は、$\lambda$の選択に依存しない。
Q$-learningでは、$Q$-learningアルゴリズムがステルス攻撃とコスト信号の有界なファルシフィケーションの下に収束していることを示す。
我々は, ファリシファイドコストと$Q$-factorsの関係と, 攻撃的かつ防御的行動の基本的な限界を提供する学習エージェントの学習方針を特徴付ける。
我々は,敵が目標とする政策を達成できないようなコストの観点から,堅牢な領域を提案する。
我々は,敵の好意的な政策を学ぶためにエージェントを誤解させるおそれのある偽装コストの条件を提供する。
TD($\lambda$)学習のケーススタディは、結果を相関付けるために提供される。
関連論文リスト
- Provably Efficient Action-Manipulation Attack Against Continuous Reinforcement Learning [49.48615590763914]
我々は,モンテカルロ木探索法を用いて効率的な行動探索と操作を行うLCBTというブラックボックス攻撃アルゴリズムを提案する。
提案手法は, DDPG, PPO, TD3の3つの攻撃的アルゴリズムに対して, 連続的な設定で実行し, 攻撃性能が期待できることを示す。
論文 参考訳(メタデータ) (2024-11-20T08:20:29Z) - Adversarially Robust Deep Learning with Optimal-Transport-Regularized
Divergences [12.1942837946862]
我々は、ディープラーニングモデルの対角的堅牢性を高めるための新しいアプローチとして、$ARMOR_D$メソッドを紹介した。
マルウェア検出と画像認識における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-09-07T15:41:45Z) - Near-Optimal Adversarial Reinforcement Learning with Switching Costs [43.895798638743784]
本稿では, スイッチングコストを伴い, 効率の良いRLアルゴリズムの開発方法について述べる。
我々の下限は、敵RLのコストを切り替えるという根本的な課題のため、最も達成された後悔はもはや達成不可能であることを示している。
本稿では,遷移関数が知られているときの下位境界に一致することを後悔する2つの新しいスイッチング・リデュースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T23:41:29Z) - Understanding the Limits of Poisoning Attacks in Episodic Reinforcement
Learning [36.30086280732181]
本稿では,<sup>RL</sup>における目標政策に向けて,幻想的順序最適学習アルゴリズムを操作するための毒攻撃について検討する。
攻撃の効果は、報酬が束縛されているか、無束縛されているかによって大きく左右される。
論文 参考訳(メタデータ) (2022-08-29T15:10:14Z) - Reinforcement Learning for Linear Quadratic Control is Vulnerable Under
Cost Manipulation [22.755411056179813]
コスト信号を操作することにより,LQG (Linear-Quadratic-Gaussian agent) の誤認について検討する。
コストパラメータの小さなファルシフィケーションが最適政策の限界変化に繋がることが示される。
論文 参考訳(メタデータ) (2022-03-11T06:59:42Z) - Projective Ranking-based GNN Evasion Attacks [52.85890533994233]
グラフニューラルネットワーク(GNN)は、グラフ関連のタスクに対して、有望な学習方法を提供する。
GNNは敵の攻撃の危険にさらされている。
論文 参考訳(メタデータ) (2022-02-25T21:52:09Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。