論文の概要: Rethinking Adversarial Attacks in Reinforcement Learning from Policy Distribution Perspective
- arxiv url: http://arxiv.org/abs/2501.03562v2
- Date: Wed, 08 Jan 2025 08:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 11:35:22.805398
- Title: Rethinking Adversarial Attacks in Reinforcement Learning from Policy Distribution Perspective
- Title(参考訳): 政策分布からみた強化学習における敵攻撃の再考
- Authors: Tianyang Duan, Zongyuan Zhang, Zheng Lin, Yue Gao, Ling Xiong, Yong Cui, Hongbin Liang, Xianhao Chen, Heming Cui, Dong Huang,
- Abstract要約: DAPGD(Dis Distribution-Aware Projected Gradient Descent attack)を提案する。
DAPGDは、ポリシーネットワークを攻撃するために勾配摂動入力として分布類似性を使用する。
実験の結果,DAPGDは3つのロボットナビゲーションタスクのベースラインと比較してSOTAを達成できた。
- 参考スコア(独自算出の注目度): 17.812046299904576
- License:
- Abstract: Deep Reinforcement Learning (DRL) suffers from uncertainties and inaccuracies in the observation signal in realworld applications. Adversarial attack is an effective method for evaluating the robustness of DRL agents. However, existing attack methods targeting individual sampled actions have limited impacts on the overall policy distribution, particularly in continuous action spaces. To address these limitations, we propose the Distribution-Aware Projected Gradient Descent attack (DAPGD). DAPGD uses distribution similarity as the gradient perturbation input to attack the policy network, which leverages the entire policy distribution rather than relying on individual samples. We utilize the Bhattacharyya distance in DAPGD to measure policy similarity, enabling sensitive detection of subtle but critical differences between probability distributions. Our experiment results demonstrate that DAPGD achieves SOTA results compared to the baselines in three robot navigation tasks, achieving an average 22.03% higher reward drop compared to the best baseline.
- Abstract(参考訳): 深層強化学習(DRL)は実世界の応用における観測信号の不確かさと不正確さに悩まされている。
逆行攻撃はDRL剤の堅牢性を評価する効果的な方法である。
しかし、サンプル化されたアクションを対象とする既存の攻撃方法は、特に連続的なアクション空間において、ポリシー全体の分布に限定的な影響を及ぼす。
これらの制約に対処するため,DAPGD(Distributed-Aware Projected Gradient Descent attack)を提案する。
DAPGDは、個別のサンプルに頼るのではなく、政策分布全体を活用する政策ネットワークを攻撃するために、勾配摂動入力として分布類似性を使用する。
DAPGDにおけるBhattacharyya距離を政策類似度の測定に利用し、確率分布間の微妙だが臨界な違いを感度的に検出する。
実験の結果, DAPGDは3つのロボットナビゲーションタスクのベースラインと比較してSOTAを達成し, 最良ベースラインよりも平均22.03%高い報酬損失を達成できた。
関連論文リスト
- Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。
DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。
DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文 参考訳(メタデータ) (2024-09-01T02:47:50Z) - DiffPoGAN: Diffusion Policies with Generative Adversarial Networks for Offline Reinforcement Learning [22.323173093804897]
オフライン強化学習は、環境と対話することなく、事前にコンパイルされたオフラインデータセットから最適なポリシーを学ぶことができる。
最近の研究はGAN(Generative Adversarial Network)を用いてこの問題に対処している。
拡散にインスパイアされたDiffusion Policies with Generative Adversarial Networks (DiffPoGAN) という新しいオフラインRL手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T13:15:40Z) - CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。
そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-02-05T04:44:35Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。