論文の概要: Unified Policy Optimization for Continuous-action Reinforcement Learning
in Non-stationary Tasks and Games
- arxiv url: http://arxiv.org/abs/2208.09452v1
- Date: Fri, 19 Aug 2022 17:12:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 17:31:16.850479
- Title: Unified Policy Optimization for Continuous-action Reinforcement Learning
in Non-stationary Tasks and Games
- Title(参考訳): 非定常タスクとゲームにおける連続行動強化学習のための統一ポリシー最適化
- Authors: Rong-Jun Qin, Fan-Ming Luo, Hong Qian, Yang Yu
- Abstract要約: 本稿では,非定常環境における学習と,継続的な行動を伴うゲームについて述べる。
我々は, PORL が最終項目収束アルゴリズムを持つことを証明し, 対戦ゲームや協調ゲームにおいて重要である。
- 参考スコア(独自算出の注目度): 6.196828712245427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses policy learning in non-stationary environments and games
with continuous actions. Rather than the classical reward maximization
mechanism, inspired by the ideas of follow-the-regularized-leader (FTRL) and
mirror descent (MD) update, we propose a no-regret style reinforcement learning
algorithm PORL for continuous action tasks. We prove that PORL has a
last-iterate convergence guarantee, which is important for adversarial and
cooperative games. Empirical studies show that, in stationary environments such
as MuJoCo locomotion controlling tasks, PORL performs equally well as, if not
better than, the soft actor-critic (SAC) algorithm; in non-stationary
environments including dynamical environments, adversarial training, and
competitive games, PORL is superior to SAC in both a better final policy
performance and a more stable training process.
- Abstract(参考訳): 本稿では,非定常環境における政策学習と継続的な行動を伴うゲームについて述べる。
追従規則化リーダ(FTRL)とミラー降下(MD)更新のアイデアにインスパイアされた古典的な報酬最大化メカニズムではなく、連続動作タスクのための非回帰型強化学習アルゴリズム PORL を提案する。
我々は,PORLが最後に収束を保証することを証明し,対戦ゲームや協調ゲームにおいて重要である。
実験的な研究によると、MuJoCoの移動制御タスクのような静止環境においては、PORLはソフトアクター・クリティック(SAC)アルゴリズムと同等に機能し、動的環境、対戦訓練、競争ゲームを含む非定常環境では、より優れた最終政策性能とより安定したトレーニングプロセスにおいて、PORLはSACよりも優れている。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - EvIL: Evolution Strategies for Generalisable Imitation Learning [33.745657379141676]
模倣学習(IL)の専門家によるデモンストレーションと、学習したポリシをデプロイしたい環境は、まったく同じではありません。
クローンのようなポリシー中心のアプローチと比較すると、逆強化学習(IRL)のような報酬中心のアプローチは、しばしば新しい環境における専門家の振る舞いをよりよく再現する。
最新のディープILアルゴリズムは、専門家よりもはるかに弱いポリシーを導出する報酬を頻繁に回収する。
本研究では,目標環境における再学習を高速化する報酬形成項を最適化する進化戦略に基づく新しい手法であるEvILを提案する。
論文 参考訳(メタデータ) (2024-06-15T22:46:39Z) - Solving a Real-World Optimization Problem Using Proximal Policy Optimization with Curriculum Learning and Reward Engineering [0.8602553195689513]
本稿では,カリキュラム学習(CL)の原則と巧妙な報酬工学によって訓練されたPPOエージェントを提案する。
我々の研究は、運用上の安全性、ボリューム最適化、リソース使用量の最小化という競合する目標を効果的にバランスさせることの課題に対処する。
提案手法は, プラントの処理効率の向上に加えて, 推定時間の安全性を著しく向上し, ほぼゼロに近い安全性違反を達成できることを実証した。
論文 参考訳(メタデータ) (2024-04-03T08:53:42Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - TASAC: a twin-actor reinforcement learning framework with stochastic
policy for batch process control [1.101002667958165]
強化学習(Reinforcement Learning, RL)は、エージェントが環境と直接対話することでポリシーを学習し、この文脈において潜在的な代替手段を提供する。
アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。
アクターと批評家のネットワークのアンサンブルは、同時に政策学習による探索の強化により、エージェントがより良い政策を学ぶのに役立つことが示されている。
論文 参考訳(メタデータ) (2022-04-22T13:00:51Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Context-Based Soft Actor Critic for Environments with Non-stationary
Dynamics [8.318823695156974]
本論文では, LC-SAC(Latent Context-based Soft Actor Critic)手法を提案する。
コントラスト予測損失関数を最小化することにより、学習されたコンテキスト変数は、環境ダイナミクスとエージェントの最近の振る舞いに関する情報をキャプチャする。
実験の結果, LC-SAC は MetaWorld ML1 タスクの SAC アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2021-05-07T15:00:59Z) - Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。
最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。
我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文 参考訳(メタデータ) (2021-03-04T18:44:03Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。