論文の概要: Reinforcement Learning for Linear Quadratic Control is Vulnerable Under
Cost Manipulation
- arxiv url: http://arxiv.org/abs/2203.05774v1
- Date: Fri, 11 Mar 2022 06:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:15:37.410334
- Title: Reinforcement Learning for Linear Quadratic Control is Vulnerable Under
Cost Manipulation
- Title(参考訳): コスト操作下での線形二次制御の強化学習
- Authors: Yunhan Huang and Quanyan Zhu
- Abstract要約: コスト信号を操作することにより,LQG (Linear-Quadratic-Gaussian agent) の誤認について検討する。
コストパラメータの小さなファルシフィケーションが最適政策の限界変化に繋がることが示される。
- 参考スコア(独自算出の注目度): 22.755411056179813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study the deception of a Linear-Quadratic-Gaussian (LQG)
agent by manipulating the cost signals. We show that a small falsification on
the cost parameters will only lead to a bounded change in the optimal policy
and the bound is linear on the amount of falsification the attacker can apply
on the cost parameters. We propose an attack model where the goal of the
attacker is to mislead the agent into learning a `nefarious' policy with
intended falsification on the cost parameters. We formulate the attack's
problem as an optimization problem, which is proved to be convex, and developed
necessary and sufficient conditions to check the achievability of the
attacker's goal.
We showcase the adversarial manipulation on two types of LQG learners: the
batch RL learner and the other is the adaptive dynamic programming (ADP)
learner. Our results demonstrate that with only 2.296% of falsification on the
cost data, the attacker misleads the batch RL into learning the 'nefarious'
policy that leads the vehicle to a dangerous position. The attacker can also
gradually trick the ADP learner into learning the same `nefarious' policy by
consistently feeding the learner a falsified cost signal that stays close to
the true cost signal. The aim of the paper is to raise people's awareness of
the security threats faced by RL-enabled control systems.
- Abstract(参考訳): 本研究では,LQG (Linear-Quadratic-Gaussian agent) の偽装について,コスト信号の操作による検討を行った。
コストパラメータの小さな改ざんは、最適なポリシーの限定的な変更にのみつながり、その境界は、攻撃者がコストパラメータに適用できる改ざんの量に線形であることを示す。
本研究では,攻撃者の目標がエージェントを誤認して,コストパラメータのファルシフィケーションを意図した「悪質」ポリシーを学習する攻撃モデルを提案する。
本稿では,攻撃目標の達成可能性を確認する上で必要かつ十分な条件を整備した,凸性を示す最適化問題として,攻撃の問題を定式化する。
本稿では,バッチrl学習者と適応動的プログラミング(adp)学習者という,2種類のlqg学習者に対する逆操作について紹介する。
その結果,コストデータに対する偽装のわずか2.296%で,攻撃者はバッチrlを誤解して,車両を危険な位置まで導く「有害な」ポリシーを学ぶことができた。
攻撃者は、学習者に真のコスト信号に近づいた偽のコストシグナルを一貫して供給することで、ADPの学習者を徐々に、同じ「悪質な」ポリシーを学ぶことができる。
本研究の目的は、RL対応制御システムによるセキュリティ脅威に対する人々の認識を高めることである。
関連論文リスト
- Provably Efficient Action-Manipulation Attack Against Continuous Reinforcement Learning [49.48615590763914]
我々は,モンテカルロ木探索法を用いて効率的な行動探索と操作を行うLCBTというブラックボックス攻撃アルゴリズムを提案する。
提案手法は, DDPG, PPO, TD3の3つの攻撃的アルゴリズムに対して, 連続的な設定で実行し, 攻撃性能が期待できることを示す。
論文 参考訳(メタデータ) (2024-11-20T08:20:29Z) - AutoCost: Evolving Intrinsic Cost for Zero-violation Reinforcement
Learning [3.4806267677524896]
我々は、制約付きRLがゼロ違反性能を達成するのに役立つコスト関数を自動的に検索するフレームワークであるAutoCostを提案する。
我々は,我々のコスト関数を用いた補助エージェントの性能を,同じ政策学習者を用いたベースラインエージェントに付加的な内在的コストを与えるために,外在的コストのみを伴って比較した。
論文 参考訳(メタデータ) (2023-01-24T22:51:29Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - The Power and Limitation of Pretraining-Finetuning for Linear Regression
under Covariate Shift [127.21287240963859]
本研究では,対象データに基づく事前学習と微調整を併用した伝達学習手法について検討する。
大規模な線形回帰インスタンスの場合、$O(N2)$ソースデータによる転送学習は、$N$ターゲットデータによる教師あり学習と同じくらい効果的である。
論文 参考訳(メタデータ) (2022-08-03T05:59:49Z) - Sampling Attacks on Meta Reinforcement Learning: A Minimax Formulation
and Complexity Analysis [20.11993437283895]
本稿では,この種のセキュリティリスクを理解するためのゲーム理論的基盤を提供する。
我々は、サンプリング攻撃モデルを、攻撃者とエージェントの間のスタックルバーグゲームとして定義し、最小限の定式化をもたらす。
我々は,攻撃者の小さな努力が学習性能を著しく低下させる可能性があることを観察した。
論文 参考訳(メタデータ) (2022-07-29T21:29:29Z) - Reward Poisoning Attacks on Offline Multi-Agent Reinforcement Learning [17.80728511507729]
攻撃者は、中毒のコストを発生させながら、オフラインデータセットで異なる学習者に報酬ベクトルを変更することができる。
攻撃者は、その中毒コストを最小限に抑えるために、線形プログラムを定式化する方法を示す。
我々の研究は、敵攻撃に対する堅牢なMARLの必要性を示している。
論文 参考訳(メタデータ) (2022-06-04T03:15:57Z) - Projective Ranking-based GNN Evasion Attacks [52.85890533994233]
グラフニューラルネットワーク(GNN)は、グラフ関連のタスクに対して、有望な学習方法を提供する。
GNNは敵の攻撃の危険にさらされている。
論文 参考訳(メタデータ) (2022-02-25T21:52:09Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Manipulating Reinforcement Learning: Poisoning Attacks on Cost Signals [22.755411056179813]
本章は、強化学習(RL)におけるサイバー攻撃の出現について研究する。
操作中のTD($lambda$)と$Q$-learningアルゴリズムの性能劣化を分析する。
TD($lambda$)学習のケーススタディは、結果を相関付けるために提供される。
論文 参考訳(メタデータ) (2020-02-07T15:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。