論文の概要: Stealthy Imitation: Reward-guided Environment-free Policy Stealing
- arxiv url: http://arxiv.org/abs/2405.07004v1
- Date: Sat, 11 May 2024 12:55:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 18:57:41.838516
- Title: Stealthy Imitation: Reward-guided Environment-free Policy Stealing
- Title(参考訳): Stealthy Imitation: Reward-guided Environment-free Policy Stealing
- Authors: Zhixiong Zhuang, Maria-Irina Nicolae, Mario Fritz,
- Abstract要約: 我々は、環境や入力範囲の知識にアクセスせずにポリシーを盗むように設計された最初の攻撃であるStealthy Imitationを提案する。
被害者の入力状態の分布にアクセスできないため、Stealthyはそれを近似できる報酬モデルに適合する。
攻撃クエリの分布が被害者のものと一致した場合, 被害者の方針を模倣することが困難であることを示す。
- 参考スコア(独自算出の注目度): 45.66401695351214
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep reinforcement learning policies, which are integral to modern control systems, represent valuable intellectual property. The development of these policies demands considerable resources, such as domain expertise, simulation fidelity, and real-world validation. These policies are potentially vulnerable to model stealing attacks, which aim to replicate their functionality using only black-box access. In this paper, we propose Stealthy Imitation, the first attack designed to steal policies without access to the environment or knowledge of the input range. This setup has not been considered by previous model stealing methods. Lacking access to the victim's input states distribution, Stealthy Imitation fits a reward model that allows to approximate it. We show that the victim policy is harder to imitate when the distribution of the attack queries matches that of the victim. We evaluate our approach across diverse, high-dimensional control tasks and consistently outperform prior data-free approaches adapted for policy stealing. Lastly, we propose a countermeasure that significantly diminishes the effectiveness of the attack.
- Abstract(参考訳): 現代制御システムに不可欠な深層強化学習政策は、貴重な知的財産である。
これらのポリシーの開発には、ドメインの専門知識、シミュレーションの忠実さ、実世界の検証など、かなりのリソースが必要である。
これらのポリシは、ブラックボックスアクセスのみを使用して機能を複製することを目的とした、モデルステルス攻撃に対して、潜在的に脆弱である。
本稿では,環境や入力範囲の知識を使わずにポリシーを盗むための最初の攻撃であるStealthy Imitationを提案する。
この設定は、以前のモデルステルス法では考慮されていない。
被害者の入力状態の分布にアクセスできないため、Stealthy Imitationはそれを近似できる報酬モデルに適合する。
攻撃クエリの分布が被害者のものと一致した場合, 被害者の方針を模倣することが困難であることを示す。
我々は、多種多様な高次元制御タスクに対する我々のアプローチを評価し、ポリシーステルスに適応したデータフリーアプローチを一貫して上回っている。
最後に,攻撃の有効性を著しく低下させる対策を提案する。
関連論文リスト
- Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Rethinking Adversarial Policies: A Generalized Attack Formulation and
Provable Defense in RL [46.32591437241358]
本稿では、訓練された被害者エージェントが他のエージェントを制御する攻撃者によって悪用されるマルチエージェント設定について考察する。
以前のモデルでは、攻撃者が$alpha$に対する部分的な制御しか持たない可能性や、攻撃が容易に検出可能な"異常"な振る舞いを生じさせる可能性を考慮していない。
我々は、敵がエージェントをどの程度制御できるかをモデル化する柔軟性を持つ汎用攻撃フレームワークを導入する。
我々は、時間的分離を伴う敵の訓練を通じて、最も堅牢な被害者政策への収束を証明可能な効率のよい防御を提供する。
論文 参考訳(メタデータ) (2023-05-27T02:54:07Z) - Toward Evaluating Robustness of Reinforcement Learning with Adversarial Policy [32.1138935956272]
強化学習エージェントは、デプロイ中に回避攻撃を受けやすい。
本稿では,効率的なブラックボックス対応政策学習のための本質的なモチベーション付き適応政策(IMAP)を提案する。
論文 参考訳(メタデータ) (2023-05-04T07:24:12Z) - Implicit Poisoning Attacks in Two-Agent Reinforcement Learning:
Adversarial Policies for Training-Time Attacks [21.97069271045167]
標的毒攻撃では、攻撃者はエージェントと環境の相互作用を操作して、ターゲットポリシーと呼ばれる利害政策を採用するように強制する。
本研究では,攻撃者がエージェントの有効環境を暗黙的に毒殺する2エージェント環境での標的毒殺攻撃について,仲間の方針を変更して検討した。
最適な攻撃を設計するための最適化フレームワークを開発し、攻撃のコストは、ピアエージェントが想定するデフォルトポリシーからどの程度逸脱するかを測定する。
論文 参考訳(メタデータ) (2023-02-27T14:52:15Z) - Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack [53.032801921915436]
HAR(Human Activity Recognition)は、自動運転車など、幅広い用途に採用されている。
近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。
攻撃者がモデルの入出力しかアクセスできない場合でも、そのような脅威が存在することを示す。
BASARと呼ばれる骨格をベースとしたHARにおいて,最初のブラックボックス攻撃手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:51:28Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Policy Teaching in Reinforcement Learning via Environment Poisoning
Attacks [33.41280432984183]
本研究では,攻撃者が学習環境を害し,攻撃者が選択したターゲットポリシーの実行を強制する強化学習に対するセキュリティ上の脅威について検討する。
被害者として、無限水平問題設定における報酬を最大化するポリシーを見つけることを目的としたRLエージェントを考える。
論文 参考訳(メタデータ) (2020-11-21T16:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。