論文の概要: Adaptive Discounting of Training Time Attacks
- arxiv url: http://arxiv.org/abs/2401.02652v1
- Date: Fri, 5 Jan 2024 06:03:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 15:56:11.066054
- Title: Adaptive Discounting of Training Time Attacks
- Title(参考訳): 訓練時間攻撃の適応的割引
- Authors: Ridhima Bector, Abhay Aradhya, Chai Quek, Zinovi Rabinovich
- Abstract要約: C-TTAは, 環境動態と非最適性の両方により, 対象行動が適応不能である場合でも, 被害者の目標に対してC-TTAが可能であることを示す(s)。
我々は、このより強力なC-TTAを学習する、ガンマDDPGと呼ばれるDDPGアルゴリズムの専門的な風味を開発する。
ガンマDDPGは、被害者の現在の行動に基づいて、攻撃ポリシー計画の水平線を動的に変更する。
- 参考スコア(独自算出の注目度): 5.454135767607228
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Among the most insidious attacks on Reinforcement Learning (RL) solutions are
training-time attacks (TTAs) that create loopholes and backdoors in the learned
behaviour. Not limited to a simple disruption, constructive TTAs (C-TTAs) are
now available, where the attacker forces a specific, target behaviour upon a
training RL agent (victim). However, even state-of-the-art C-TTAs focus on
target behaviours that could be naturally adopted by the victim if not for a
particular feature of the environment dynamics, which C-TTAs exploit. In this
work, we show that a C-TTA is possible even when the target behaviour is
un-adoptable due to both environment dynamics as well as non-optimality with
respect to the victim objective(s). To find efficient attacks in this context,
we develop a specialised flavour of the DDPG algorithm, which we term
gammaDDPG, that learns this stronger version of C-TTA. gammaDDPG dynamically
alters the attack policy planning horizon based on the victim's current
behaviour. This improves effort distribution throughout the attack timeline and
reduces the effect of uncertainty the attacker has about the victim. To
demonstrate the features of our method and better relate the results to prior
research, we borrow a 3D grid domain from a state-of-the-art C-TTA for our
experiments. Code is available at "bit.ly/github-rb-gDDPG".
- Abstract(参考訳): 強化学習(RL)ソリューションに対する最も汚い攻撃は、学習行動の抜け穴やバックドアを生成する訓練時攻撃(TTA)である。
単純なディスラプションに限らず、構成的TTA(C-TTA)が利用可能となり、攻撃者はトレーニングRLエージェント(victim)に特定のターゲット動作を強制する。
しかし、最先端のC-TTAでさえ、C-TTAが悪用している環境力学の特定の特徴がなければ、被害者によって自然に採用される可能性のあるターゲットの動作に焦点を当てている。
本研究では,C-TTAが環境動態だけでなく,被害者の目的に対する非最適性から,対象行動が適応不能である場合でも可能であることを示す。
この文脈で効率的な攻撃を見つけるために、我々は、このより強力なC-TTAを学習するガンマDDPGと呼ばれるDDPGアルゴリズムの特化フレーバーを開発する。
ガンマDDPGは、被害者の現在の行動に基づいて攻撃ポリシー計画の水平線を動的に変更する。
これにより、攻撃タイムライン全体の労力分布を改善し、攻撃者が被害者に対して持つ不確実性の影響を低減する。
提案手法の特徴を実証し, 先行研究と結果をよりよく関連付けるため, 実験のために最先端C-TTAから3次元グリッドドメインを借りる。
コードは「bit.ly/github-rb-gDDPG」で入手できる。
関連論文リスト
- Backdoor Contrastive Learning via Bi-level Trigger Optimization [45.41485634654881]
コントラスト学習(CL)は、教師なし表現学習における顕著な能力により、大きな注目を集めている。
最近の研究により、CLのバックドア攻撃に対する脆弱性が明らかになった。
本稿では,この目的を達成するための二段階最適化手法を提案する。
論文 参考訳(メタデータ) (2024-04-11T15:55:53Z) - Guidance Through Surrogate: Towards a Generic Diagnostic Attack [101.36906370355435]
我々は、攻撃最適化中に局所最小限を避けるための誘導機構を開発し、G-PGAと呼ばれる新たな攻撃に繋がる。
修正された攻撃では、ランダムに再起動したり、多数の攻撃を繰り返したり、最適なステップサイズを検索したりする必要がありません。
効果的な攻撃以上に、G-PGAは敵防御における勾配マスキングによる解離性堅牢性を明らかにするための診断ツールとして用いられる。
論文 参考訳(メタデータ) (2022-12-30T18:45:23Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - Understanding Adversarial Attacks on Observations in Deep Reinforcement
Learning [32.12283927682007]
深層強化学習モデルは、観測を操作することで被害者の総報酬を減少させる敵攻撃に対して脆弱である。
関数空間における逆攻撃の問題を修正し、以前の勾配に基づく攻撃をいくつかの部分空間に分割する。
第一段階では、環境をハックして偽装ポリシーを訓練し、最下位の報酬にルーティングするトラジェクトリのセットを発見する。
本手法は,攻撃エージェントの性能に対して,既存の手法よりも厳密な理論上界を提供する。
論文 参考訳(メタデータ) (2021-06-30T07:41:51Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Policy Teaching via Environment Poisoning: Training-time Adversarial
Attacks against Reinforcement Learning [33.41280432984183]
本研究では,攻撃者が学習環境を害してエージェントに目標ポリシーの実行を強制する強化学習に対するセキュリティ上の脅威について検討する。
被害者として、未報告の無限水平問題設定における平均報酬を最大化するポリシーを見つけることを目的としたRLエージェントを考える。
論文 参考訳(メタデータ) (2020-03-28T23:22:28Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。