論文の概要: Action Robust Reinforcement Learning via Optimal Adversary Aware Policy Optimization
- arxiv url: http://arxiv.org/abs/2507.03372v1
- Date: Fri, 04 Jul 2025 08:11:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.70701
- Title: Action Robust Reinforcement Learning via Optimal Adversary Aware Policy Optimization
- Title(参考訳): 最適逆アウェアポリシー最適化によるアクションロバスト強化学習
- Authors: Buqing Nie, Yangqing Fu, Jingtian Ji, Yue Gao,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、シーケンシャルな意思決定タスクにおいて顕著な成功を収めた。
近年の研究では、異なる摂動に対するRLポリシーの脆弱性が明らかにされている。
我々は、OA-PI(Optimal Adversary-Aware Policy Iteration)と呼ばれる新しいフレームワークを導入する。
- 参考スコア(独自算出の注目度): 7.680706215758518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has achieved remarkable success in sequential decision tasks. However, recent studies have revealed the vulnerability of RL policies to different perturbations, raising concerns about their effectiveness and safety in real-world applications. In this work, we focus on the robustness of RL policies against action perturbations and introduce a novel framework called Optimal Adversary-aware Policy Iteration (OA-PI). Our framework enhances action robustness under various perturbations by evaluating and improving policy performance against the corresponding optimal adversaries. Besides, our approach can be integrated into mainstream DRL algorithms such as Twin Delayed DDPG (TD3) and Proximal Policy Optimization (PPO), improving action robustness effectively while maintaining nominal performance and sample efficiency. Experimental results across various environments demonstrate that our method enhances robustness of DRL policies against different action adversaries effectively.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、シーケンシャルな意思決定タスクにおいて顕著な成功を収めた。
しかし、近年の研究で異なる摂動に対するRLポリシーの脆弱性が明らかにされ、現実のアプリケーションにおけるその有効性と安全性に対する懸念が高まっている。
本研究では,行動摂動に対するRL政策の堅牢性に着目し,OA-PI(Optimal Adversary-Aware Policy Iteration)と呼ばれる新しい枠組みを導入する。
本フレームワークは、対応する最適敵に対する政策性能を評価し改善することにより、様々な摂動下でのアクションロバスト性を高める。
さらに,本手法は,Twin Delayed DDPG (TD3) や Proximal Policy Optimization (PPO) などのDRLアルゴリズムに組み込むことができ,高名な性能とサンプル効率を維持しつつ,効果的に動作堅牢性を向上させることができる。
種々の環境における実験結果から, DRLポリシーの堅牢性を効果的に向上できることが示唆された。
関連論文リスト
- Enhanced Penalty-based Bidirectional Reinforcement Learning Algorithms [4.197448156583907]
エージェントが初期状態と終端状態の両方から学習できる双方向学習手法を提案する。
提案手法は,Maniのスキルベンチマーク環境に対して検証される。
その結果、この統合戦略は、困難なシナリオにおける政策学習、適応性、全体的なパフォーマンスを向上させることが示唆された。
論文 参考訳(メタデータ) (2025-04-04T04:43:07Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Absolute Policy Optimization [10.503953488401926]
信頼性の高い低い性能の確率境界における単調な改善が保証される新しい目的関数を導入し、最適化する。
本実験は,連続制御ベンチマークタスクにおけるアプローチの有効性を実証し,Atariゲームへの適用性を拡張した。
論文 参考訳(メタデータ) (2023-10-20T02:40:05Z) - Efficient Action Robust Reinforcement Learning with Probabilistic Policy
Execution Uncertainty [43.55450683502937]
本稿では,確率的政策実行の不確実性を考慮したアクションロバストなRLに着目した。
我々は,確率的政策実行の不確実性を伴う行動堅牢なMDPに対する最適政策の存在を確立する。
我々はまた、最適な後悔とサンプルの複雑さを最小限に抑えるAction Robust Reinforcement Learning with Certificates (ARRLC)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-07-15T00:26:51Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Evolutionary Action Selection for Gradient-based Policy Learning [6.282299638495976]
進化的アルゴリズム(EA)とDeep Reinforcement Learning(DRL)が最近組み合わされ、より優れたポリシー学習のための2つのソリューションの利点が統合された。
本稿では、EAとDRLの新たな組み合わせである進化的行動選択遅延Deep Deterministic Policy Gradient (EAS-TD3)を提案する。
論文 参考訳(メタデータ) (2022-01-12T03:31:21Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Optimistic Distributionally Robust Policy Optimization [2.345728642535161]
Trust Region Policy Optimization (TRPO) と Proximal Policy Optimization (PPO) は、特定のパラメトリック分布クラスにポリシー表現を制限するため、準最適解に収束する傾向にある。
そこで我々は,信頼領域制約最適化問題をパラメータ化せずに解くために,最適分布ロバストポリシ最適化(ODRO)アルゴリズムを開発した。
提案アルゴリズムは, TRPOとPPOを改良し, 学習安定性を確保しつつ, サンプル効率の向上と最終方針の性能向上を実現した。
論文 参考訳(メタデータ) (2020-06-14T06:36:18Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。