Fugu-MT 論文翻訳(概要): Rethinking Adversarial Attacks in Reinforcement Learning from Policy Distribution Perspective

論文の概要: Rethinking Adversarial Attacks in Reinforcement Learning from Policy Distribution Perspective

arxiv url: http://arxiv.org/abs/2501.03562v2
Date: Wed, 08 Jan 2025 08:57:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-09 14:12:18.438242
Title: Rethinking Adversarial Attacks in Reinforcement Learning from Policy Distribution Perspective
Title（参考訳）: 政策分布からみた強化学習における敵攻撃の再考
Authors: Tianyang Duan, Zongyuan Zhang, Zheng Lin, Yue Gao, Ling Xiong, Yong Cui, Hongbin Liang, Xianhao Chen, Heming Cui, Dong Huang,
Abstract要約: DAPGD(Dis Distribution-Aware Projected Gradient Descent attack)を提案する。 DAPGDは、ポリシーネットワークを攻撃するために勾配摂動入力として分布類似性を使用する。実験の結果,DAPGDは3つのロボットナビゲーションタスクのベースラインと比較してSOTAを達成できた。
参考スコア（独自算出の注目度）: 17.812046299904576
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep Reinforcement Learning (DRL) suffers from uncertainties and inaccuracies in the observation signal in realworld applications. Adversarial attack is an effective method for evaluating the robustness of DRL agents. However, existing attack methods targeting individual sampled actions have limited impacts on the overall policy distribution, particularly in continuous action spaces. To address these limitations, we propose the Distribution-Aware Projected Gradient Descent attack (DAPGD). DAPGD uses distribution similarity as the gradient perturbation input to attack the policy network, which leverages the entire policy distribution rather than relying on individual samples. We utilize the Bhattacharyya distance in DAPGD to measure policy similarity, enabling sensitive detection of subtle but critical differences between probability distributions. Our experiment results demonstrate that DAPGD achieves SOTA results compared to the baselines in three robot navigation tasks, achieving an average 22.03% higher reward drop compared to the best baseline.
Abstract（参考訳）: 深層強化学習(DRL)は実世界の応用における観測信号の不確かさと不正確さに悩まされている。逆行攻撃はDRL剤の堅牢性を評価する効果的な方法である。しかし、サンプル化されたアクションを対象とする既存の攻撃方法は、特に連続的なアクション空間において、ポリシー全体の分布に限定的な影響を及ぼす。これらの制約に対処するため,DAPGD(Distributed-Aware Projected Gradient Descent attack)を提案する。 DAPGDは、個別のサンプルに頼るのではなく、政策分布全体を活用する政策ネットワークを攻撃するために、勾配摂動入力として分布類似性を使用する。 DAPGDにおけるBhattacharyya距離を政策類似度の測定に利用し、確率分布間の微妙だが臨界な違いを感度的に検出する。実験の結果, DAPGDは3つのロボットナビゲーションタスクのベースラインと比較してSOTAを達成し, 最良ベースラインよりも平均22.03%高い報酬損失を達成できた。

関連論文リスト

Optimal Perturbation Budget Allocation for Data Poisoning in Offline Reinforcement Learning [3.548727497699329]
オフライン強化学習(RL)は、静的データセットからのポリシー最適化を可能にするが、本質的にデータ中毒攻撃に対して脆弱である。既存の攻撃戦略は通常、全てのサンプルを無差別に扱う局所的な均一な摂動に依存している。このアプローチは、低インパクトサンプルの摂動予算を無駄にし、統計的に大きな違いがあるため、ステルス性を欠いているため、非効率である。
論文参考訳（メタデータ） (2025-12-09T11:04:37Z)
Safe, Efficient, and Robust Reinforcement Learning for Ranking and Diffusion Models [2.231476498067998]
論文は、強化学習手法が安全で、サンプル効率が高く、堅牢であるようにどのように設計できるかを調査する。コンテキスト帯域RLの統一的な視点から判断されたこの作業は、ランキングとレコメンデーション、テキストから画像への拡散モデルという2つの主要なアプリケーション領域に対処する。
論文参考訳（メタデータ） (2025-10-17T08:37:38Z)
Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces [57.466101098183884]
強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模なアクション空間にスケールするために苦労する。本稿では、複雑な環境下での高効率なポリシーとして、離散拡散モデルを訓練するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-26T21:53:36Z)
Curriculum-Guided Antifragile Reinforcement Learning for Secure UAV Deconfliction under Observation-Space Attacks [6.367978467906828]
強化学習政策は、観測空間における敵の攻撃に対して脆弱である。本稿では,段階的対向摂動のカリキュラムに適応するために設計された反フレジブルなRLフレームワークを提案する。その結果, 反フランジ政策は標準およびロバストなRLベースラインよりも一貫して優れていた。
論文参考訳（メタデータ） (2025-06-26T10:10:41Z)
Robust Policy Switching for Antifragile Reinforcement Learning for UAV Deconfliction in Adversarial Environments [6.956559003734227]
無人航空機(UAV)は、強化学習(RL)の脆弱性を利用する敵の攻撃にさらされている。本稿では,より広範な分布シフトへの適応性を高めるための反フレジブルRLフレームワークを提案する。より優れた性能を発揮し、短い航法路の長さと衝突のない航法軌道の速度を示す。
論文参考訳（メタデータ） (2025-06-26T10:06:29Z)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。 DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。 DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文参考訳（メタデータ） (2024-09-01T02:47:50Z)
DiffPoGAN: Diffusion Policies with Generative Adversarial Networks for Offline Reinforcement Learning [22.323173093804897]
オフライン強化学習は、環境と対話することなく、事前にコンパイルされたオフラインデータセットから最適なポリシーを学ぶことができる。最近の研究はGAN(Generative Adversarial Network)を用いてこの問題に対処している。拡散にインスパイアされたDiffusion Policies with Generative Adversarial Networks (DiffPoGAN) という新しいオフラインRL手法を提案する。
論文参考訳（メタデータ） (2024-06-13T13:15:40Z)
CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文参考訳（メタデータ） (2024-06-11T17:59:29Z)
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文参考訳（メタデータ） (2024-05-25T10:45:46Z)
DALA: A Distribution-Aware LoRA-Based Adversarial Attack against Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文参考訳（メタデータ） (2023-11-14T23:43:47Z)
Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文参考訳（メタデータ） (2023-10-24T01:00:01Z)
Sample Dropout: A Simple yet Effective Variance Reduction Technique in Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文参考訳（メタデータ） (2023-02-05T04:44:35Z)
Robust Deep Reinforcement Learning against Adversarial Perturbations on State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文参考訳（メタデータ） (2020-03-19T17:59:59Z)
Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文参考訳（メタデータ） (2020-02-14T12:36:59Z)
Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文参考訳（メタデータ） (2020-02-10T04:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。