論文の概要: Action Robust Reinforcement Learning via Optimal Adversary Aware Policy Optimization
- arxiv url: http://arxiv.org/abs/2507.03372v1
- Date: Fri, 04 Jul 2025 08:11:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.70701
- Title: Action Robust Reinforcement Learning via Optimal Adversary Aware Policy Optimization
- Title(参考訳): 最適逆アウェアポリシー最適化によるアクションロバスト強化学習
- Authors: Buqing Nie, Yangqing Fu, Jingtian Ji, Yue Gao,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、シーケンシャルな意思決定タスクにおいて顕著な成功を収めた。
近年の研究では、異なる摂動に対するRLポリシーの脆弱性が明らかにされている。
我々は、OA-PI(Optimal Adversary-Aware Policy Iteration)と呼ばれる新しいフレームワークを導入する。
- 参考スコア(独自算出の注目度): 7.680706215758518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has achieved remarkable success in sequential decision tasks. However, recent studies have revealed the vulnerability of RL policies to different perturbations, raising concerns about their effectiveness and safety in real-world applications. In this work, we focus on the robustness of RL policies against action perturbations and introduce a novel framework called Optimal Adversary-aware Policy Iteration (OA-PI). Our framework enhances action robustness under various perturbations by evaluating and improving policy performance against the corresponding optimal adversaries. Besides, our approach can be integrated into mainstream DRL algorithms such as Twin Delayed DDPG (TD3) and Proximal Policy Optimization (PPO), improving action robustness effectively while maintaining nominal performance and sample efficiency. Experimental results across various environments demonstrate that our method enhances robustness of DRL policies against different action adversaries effectively.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、シーケンシャルな意思決定タスクにおいて顕著な成功を収めた。
しかし、近年の研究で異なる摂動に対するRLポリシーの脆弱性が明らかにされ、現実のアプリケーションにおけるその有効性と安全性に対する懸念が高まっている。
本研究では,行動摂動に対するRL政策の堅牢性に着目し,OA-PI(Optimal Adversary-Aware Policy Iteration)と呼ばれる新しい枠組みを導入する。
本フレームワークは、対応する最適敵に対する政策性能を評価し改善することにより、様々な摂動下でのアクションロバスト性を高める。
さらに,本手法は,Twin Delayed DDPG (TD3) や Proximal Policy Optimization (PPO) などのDRLアルゴリズムに組み込むことができ,高名な性能とサンプル効率を維持しつつ,効果的に動作堅牢性を向上させることができる。
種々の環境における実験結果から, DRLポリシーの堅牢性を効果的に向上できることが示唆された。
関連論文リスト
- Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Absolute Policy Optimization [10.503953488401926]
信頼性の高い低い性能の確率境界における単調な改善が保証される新しい目的関数を導入し、最適化する。
本実験は,連続制御ベンチマークタスクにおけるアプローチの有効性を実証し,Atariゲームへの適用性を拡張した。
論文 参考訳(メタデータ) (2023-10-20T02:40:05Z) - Efficient Action Robust Reinforcement Learning with Probabilistic Policy
Execution Uncertainty [43.55450683502937]
本稿では,確率的政策実行の不確実性を考慮したアクションロバストなRLに着目した。
我々は,確率的政策実行の不確実性を伴う行動堅牢なMDPに対する最適政策の存在を確立する。
我々はまた、最適な後悔とサンプルの複雑さを最小限に抑えるAction Robust Reinforcement Learning with Certificates (ARRLC)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-07-15T00:26:51Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Optimistic Distributionally Robust Policy Optimization [2.345728642535161]
Trust Region Policy Optimization (TRPO) と Proximal Policy Optimization (PPO) は、特定のパラメトリック分布クラスにポリシー表現を制限するため、準最適解に収束する傾向にある。
そこで我々は,信頼領域制約最適化問題をパラメータ化せずに解くために,最適分布ロバストポリシ最適化(ODRO)アルゴリズムを開発した。
提案アルゴリズムは, TRPOとPPOを改良し, 学習安定性を確保しつつ, サンプル効率の向上と最終方針の性能向上を実現した。
論文 参考訳(メタデータ) (2020-06-14T06:36:18Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。