論文の概要: Unified Policy Optimization for Continuous-action Reinforcement Learning
in Non-stationary Tasks and Games
- arxiv url: http://arxiv.org/abs/2208.09452v1
- Date: Fri, 19 Aug 2022 17:12:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 17:31:16.850479
- Title: Unified Policy Optimization for Continuous-action Reinforcement Learning
in Non-stationary Tasks and Games
- Title(参考訳): 非定常タスクとゲームにおける連続行動強化学習のための統一ポリシー最適化
- Authors: Rong-Jun Qin, Fan-Ming Luo, Hong Qian, Yang Yu
- Abstract要約: 本稿では,非定常環境における学習と,継続的な行動を伴うゲームについて述べる。
我々は, PORL が最終項目収束アルゴリズムを持つことを証明し, 対戦ゲームや協調ゲームにおいて重要である。
- 参考スコア(独自算出の注目度): 6.196828712245427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses policy learning in non-stationary environments and games
with continuous actions. Rather than the classical reward maximization
mechanism, inspired by the ideas of follow-the-regularized-leader (FTRL) and
mirror descent (MD) update, we propose a no-regret style reinforcement learning
algorithm PORL for continuous action tasks. We prove that PORL has a
last-iterate convergence guarantee, which is important for adversarial and
cooperative games. Empirical studies show that, in stationary environments such
as MuJoCo locomotion controlling tasks, PORL performs equally well as, if not
better than, the soft actor-critic (SAC) algorithm; in non-stationary
environments including dynamical environments, adversarial training, and
competitive games, PORL is superior to SAC in both a better final policy
performance and a more stable training process.
- Abstract(参考訳): 本稿では,非定常環境における政策学習と継続的な行動を伴うゲームについて述べる。
追従規則化リーダ(FTRL)とミラー降下(MD)更新のアイデアにインスパイアされた古典的な報酬最大化メカニズムではなく、連続動作タスクのための非回帰型強化学習アルゴリズム PORL を提案する。
我々は,PORLが最後に収束を保証することを証明し,対戦ゲームや協調ゲームにおいて重要である。
実験的な研究によると、MuJoCoの移動制御タスクのような静止環境においては、PORLはソフトアクター・クリティック(SAC)アルゴリズムと同等に機能し、動的環境、対戦訓練、競争ゲームを含む非定常環境では、より優れた最終政策性能とより安定したトレーニングプロセスにおいて、PORLはSACよりも優れている。
関連論文リスト
- Score-Based Diffusion Policy Compatible with Reinforcement Learning via Optimal Transport [45.793758222754036]
拡散政策は、デモから複雑な振る舞いを学ぶ際に有望であることを示している。
本稿では,環境とのオンラインインタラクションによる拡散型模倣学習モデルの改善について検討する。
最適輸送理論を用いた拡散ポリシをRLと統合する新しい手法OTPRを提案する。
論文 参考訳(メタデータ) (2025-02-18T08:22:20Z) - Explore Reinforced: Equilibrium Approximation with Reinforcement Learning [3.214961078500366]
RLとゲーム理論を融合したExp3-IXrlを導入し、RLエージェントの作用選択を平衡から分離する。
我々は,このアルゴリズムが平衡近似アルゴリズムを新しい環境に適用することを実証した。
論文 参考訳(メタデータ) (2024-12-02T22:37:59Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Solving a Real-World Optimization Problem Using Proximal Policy Optimization with Curriculum Learning and Reward Engineering [0.8602553195689513]
本稿では,カリキュラム学習(CL)の原則と巧妙な報酬工学によって訓練されたPPOエージェントを提案する。
我々の研究は、運用上の安全性、ボリューム最適化、リソース使用量の最小化という競合する目標を効果的にバランスさせることの課題に対処する。
提案手法は, プラントの処理効率の向上に加えて, 推定時間の安全性を著しく向上し, ほぼゼロに近い安全性違反を達成できることを実証した。
論文 参考訳(メタデータ) (2024-04-03T08:53:42Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - TASAC: a twin-actor reinforcement learning framework with stochastic
policy for batch process control [1.101002667958165]
強化学習(Reinforcement Learning, RL)は、エージェントが環境と直接対話することでポリシーを学習し、この文脈において潜在的な代替手段を提供する。
アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。
アクターと批評家のネットワークのアンサンブルは、同時に政策学習による探索の強化により、エージェントがより良い政策を学ぶのに役立つことが示されている。
論文 参考訳(メタデータ) (2022-04-22T13:00:51Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Context-Based Soft Actor Critic for Environments with Non-stationary
Dynamics [8.318823695156974]
本論文では, LC-SAC(Latent Context-based Soft Actor Critic)手法を提案する。
コントラスト予測損失関数を最小化することにより、学習されたコンテキスト変数は、環境ダイナミクスとエージェントの最近の振る舞いに関する情報をキャプチャする。
実験の結果, LC-SAC は MetaWorld ML1 タスクの SAC アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2021-05-07T15:00:59Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。