論文の概要: Robust Deep Reinforcement Learning against Adversarial Behavior Manipulation
- arxiv url: http://arxiv.org/abs/2406.03862v2
- Date: Sat, 17 May 2025 08:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 21:29:33.276646
- Title: Robust Deep Reinforcement Learning against Adversarial Behavior Manipulation
- Title(参考訳): 対向行動操作に対する頑健な深層強化学習
- Authors: Shojiro Yamabe, Kazuto Fukuchi, Jun Sakuma,
- Abstract要約: 本研究では,強化学習に対する行動目標攻撃とその対策について検討する。
われわれの知る限りでは、行動目標攻撃に特化して設計された最初の防衛戦略である。
- 参考スコア(独自算出の注目度): 10.411820336052784
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study investigates behavior-targeted attacks on reinforcement learning and their countermeasures. Behavior-targeted attacks aim to manipulate the victim's behavior as desired by the adversary through adversarial interventions in state observations. Existing behavior-targeted attacks have some limitations, such as requiring white-box access to the victim's policy. To address this, we propose a novel attack method using imitation learning from adversarial demonstrations, which works under limited access to the victim's policy and is environment-agnostic. In addition, our theoretical analysis proves that the policy's sensitivity to state changes impacts defense performance, particularly in the early stages of the trajectory. Based on this insight, we propose time-discounted regularization, which enhances robustness against attacks while maintaining task performance. To the best of our knowledge, this is the first defense strategy specifically designed for behavior-targeted attacks.
- Abstract(参考訳): 本研究では,強化学習に対する行動目標攻撃とその対策について検討する。
行動目標攻撃は、国家の観察における敵の介入を通じて、敵が望むように被害者の行動を操ることを目的としている。
既存の行動目標攻撃には、被害者のポリシーへのホワイトボックスアクセスなど、いくつかの制限がある。
そこで本研究では,被害者の方針に制限されたアクセス下で動作し,環境に依存しない,敵のデモンストレーションから模倣学習を用いた新たな攻撃手法を提案する。
さらに, 状態変化に対する政策の感受性が防衛性能, 特に軌道の初期段階に与える影響を理論的に検証した。
この知見に基づき,タスク性能を維持しながら攻撃に対する堅牢性を高める時間分散正規化を提案する。
われわれの知る限りでは、これは行動目標攻撃に特化して設計された最初の防衛戦略である。
関連論文リスト
- Rethinking Adversarial Policies: A Generalized Attack Formulation and
Provable Defense in RL [46.32591437241358]
本稿では、訓練された被害者エージェントが他のエージェントを制御する攻撃者によって悪用されるマルチエージェント設定について考察する。
以前のモデルでは、攻撃者が$alpha$に対する部分的な制御しか持たない可能性や、攻撃が容易に検出可能な"異常"な振る舞いを生じさせる可能性を考慮していない。
我々は、敵がエージェントをどの程度制御できるかをモデル化する柔軟性を持つ汎用攻撃フレームワークを導入する。
我々は、時間的分離を伴う敵の訓練を通じて、最も堅牢な被害者政策への収束を証明可能な効率のよい防御を提供する。
論文 参考訳(メタデータ) (2023-05-27T02:54:07Z) - Toward Evaluating Robustness of Reinforcement Learning with Adversarial Policy [32.1138935956272]
強化学習エージェントは、デプロイ中に回避攻撃を受けやすい。
本稿では,効率的なブラックボックス対応政策学習のための本質的なモチベーション付き適応政策(IMAP)を提案する。
論文 参考訳(メタデータ) (2023-05-04T07:24:12Z) - Generalizable Black-Box Adversarial Attack with Meta Learning [54.196613395045595]
ブラックボックス攻撃では、ターゲットモデルのパラメータが不明であり、攻撃者はクエリのフィードバックに基づいて、クエリの予算に基づいて摂動を成功させることを目指している。
本稿では,実例レベルの逆転可能性という,過去の攻撃に対するフィードバック情報を活用することを提案する。
この2種類の逆転送性を持つフレームワークは,市販のクエリベースのアタック手法と自然に組み合わせて性能を向上させることができる。
論文 参考訳(メタデータ) (2023-01-01T07:24:12Z) - Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack [53.032801921915436]
HAR(Human Activity Recognition)は、自動運転車など、幅広い用途に採用されている。
近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。
攻撃者がモデルの入出力しかアクセスできない場合でも、そのような脅威が存在することを示す。
BASARと呼ばれる骨格をベースとしたHARにおいて,最初のブラックボックス攻撃手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:51:28Z) - Imitating Opponent to Win: Adversarial Policy Imitation Learning in
Two-player Competitive Games [0.0]
敵エージェントが採用する敵ポリシーは、ターゲットRLエージェントに影響を及ぼし、マルチエージェント環境では性能が良くない。
既存の研究では、被害者エージェントと対話した経験に基づいて、敵の政策を直接訓練している。
我々は、この欠点を克服する、新しい効果的な対人政策学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-30T18:32:02Z) - A Tale of HodgeRank and Spectral Method: Target Attack Against Rank
Aggregation Is the Fixed Point of Adversarial Game [153.74942025516853]
ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。
本稿では,ペアデータの変更による集計結果の指定を希望する目的のある敵に焦点をあてる。
提案した標的攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。
論文 参考訳(メタデータ) (2022-09-13T05:59:02Z) - Execute Order 66: Targeted Data Poisoning for Reinforcement Learning [52.593097204559314]
本研究は, 特定の目標状態にのみ, エージェントの誤動作を引き起こす, 強化学習のための無害な毒殺攻撃を導入する。
我々は、近年の手法である勾配アライメントを強化学習に適用することで、これを実現する。
本手法を検証し,異なる難易度を持つ2つのアタリゲームで成功例を示す。
論文 参考訳(メタデータ) (2022-01-03T17:09:32Z) - Adversarial Robustness of Deep Reinforcement Learning based Dynamic
Recommender Systems [50.758281304737444]
本稿では,強化学習に基づく対話型レコメンデーションシステムにおける敵例の探索と攻撃検出を提案する。
まず、入力に摂動を加え、カジュアルな要因に介入することで、異なる種類の逆例を作成する。
そこで,本研究では,人工データに基づく深層学習に基づく分類器による潜在的攻撃を検出することにより,推薦システムを強化した。
論文 参考訳(メタデータ) (2021-12-02T04:12:24Z) - Understanding Adversarial Attacks on Observations in Deep Reinforcement
Learning [32.12283927682007]
深層強化学習モデルは、観測を操作することで被害者の総報酬を減少させる敵攻撃に対して脆弱である。
関数空間における逆攻撃の問題を修正し、以前の勾配に基づく攻撃をいくつかの部分空間に分割する。
第一段階では、環境をハックして偽装ポリシーを訓練し、最下位の報酬にルーティングするトラジェクトリのセットを発見する。
本手法は,攻撃エージェントの性能に対して,既存の手法よりも厳密な理論上界を提供する。
論文 参考訳(メタデータ) (2021-06-30T07:41:51Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z) - Policy Teaching via Environment Poisoning: Training-time Adversarial
Attacks against Reinforcement Learning [33.41280432984183]
本研究では,攻撃者が学習環境を害してエージェントに目標ポリシーの実行を強制する強化学習に対するセキュリティ上の脅威について検討する。
被害者として、未報告の無限水平問題設定における平均報酬を最大化するポリシーを見つけることを目的としたRLエージェントを考える。
論文 参考訳(メタデータ) (2020-03-28T23:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。