Fugu-MT 論文翻訳(概要): Unified Policy Optimization for Continuous-action Reinforcement Learning in Non-stationary Tasks and Games

論文の概要: Unified Policy Optimization for Continuous-action Reinforcement Learning in Non-stationary Tasks and Games

arxiv url: http://arxiv.org/abs/2208.09452v1
Date: Fri, 19 Aug 2022 17:12:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-22 17:31:16.850479
Title: Unified Policy Optimization for Continuous-action Reinforcement Learning in Non-stationary Tasks and Games
Title（参考訳）: 非定常タスクとゲームにおける連続行動強化学習のための統一ポリシー最適化
Authors: Rong-Jun Qin, Fan-Ming Luo, Hong Qian, Yang Yu
Abstract要約: 本稿では,非定常環境における学習と,継続的な行動を伴うゲームについて述べる。我々は, PORL が最終項目収束アルゴリズムを持つことを証明し, 対戦ゲームや協調ゲームにおいて重要である。
参考スコア（独自算出の注目度）: 6.196828712245427
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper addresses policy learning in non-stationary environments and games with continuous actions. Rather than the classical reward maximization mechanism, inspired by the ideas of follow-the-regularized-leader (FTRL) and mirror descent (MD) update, we propose a no-regret style reinforcement learning algorithm PORL for continuous action tasks. We prove that PORL has a last-iterate convergence guarantee, which is important for adversarial and cooperative games. Empirical studies show that, in stationary environments such as MuJoCo locomotion controlling tasks, PORL performs equally well as, if not better than, the soft actor-critic (SAC) algorithm; in non-stationary environments including dynamical environments, adversarial training, and competitive games, PORL is superior to SAC in both a better final policy performance and a more stable training process.
Abstract（参考訳）: 本稿では,非定常環境における政策学習と継続的な行動を伴うゲームについて述べる。追従規則化リーダ(FTRL)とミラー降下(MD)更新のアイデアにインスパイアされた古典的な報酬最大化メカニズムではなく、連続動作タスクのための非回帰型強化学習アルゴリズム PORL を提案する。我々は,PORLが最後に収束を保証することを証明し,対戦ゲームや協調ゲームにおいて重要である。実験的な研究によると、MuJoCoの移動制御タスクのような静止環境においては、PORLはソフトアクター・クリティック(SAC)アルゴリズムと同等に機能し、動的環境、対戦訓練、競争ゲームを含む非定常環境では、より優れた最終政策性能とより安定したトレーニングプロセスにおいて、PORLはSACよりも優れている。

関連論文リスト

Curriculum Learning With Counterfactual Group Relative Policy Advantage For Multi-Agent Reinforcement Learning [15.539607264374242]
マルチエージェント強化学習 (MARL) は, 協調的対人作業において高い性能を示した。本稿では,自己適応型難易度調整機構を用いた動的カリキュラム学習フレームワークを提案する。本手法はトレーニングの安定性と最終性能を両立させ,最先端の手法と競合する結果を得る。
論文参考訳（メタデータ） (2025-06-09T08:38:18Z)
Action-Adaptive Continual Learning: Enabling Policy Generalization under Dynamic Action Spaces [16.07372335607339]
連続学習(CL)は、エージェントが一連のタスクを学習できる強力なツールである。既存のCLメソッドは、エージェントの能力が動的環境の中で静的であると仮定することが多い。本稿では,この課題に対処する行動適応型連続学習フレームワーク(AACL)を提案する。
論文参考訳（メタデータ） (2025-06-06T03:07:30Z)
The Cell Must Go On: Agar.io for Continual Reinforcement Learning [9.034912115190034]
継続的な強化学習(RL)は、評価のために固定されたポリシーに収束するのではなく、継続的に学習することが期待されるエージェントに関するものである。 AgarCLは連続RLのための研究プラットフォームであり、より洗練された行動の進行を可能にする。
論文参考訳（メタデータ） (2025-05-23T20:09:27Z)
Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文参考訳（メタデータ） (2025-04-10T16:14:17Z)
Score-Based Diffusion Policy Compatible with Reinforcement Learning via Optimal Transport [45.793758222754036]
拡散政策は、デモから複雑な振る舞いを学ぶ際に有望であることを示している。本稿では,環境とのオンラインインタラクションによる拡散型模倣学習モデルの改善について検討する。最適輸送理論を用いた拡散ポリシをRLと統合する新しい手法OTPRを提案する。
論文参考訳（メタデータ） (2025-02-18T08:22:20Z)
Explore Reinforced: Equilibrium Approximation with Reinforcement Learning [3.214961078500366]
RLとゲーム理論を融合したExp3-IXrlを導入し、RLエージェントの作用選択を平衡から分離する。我々は,このアルゴリズムが平衡近似アルゴリズムを新しい環境に適用することを実証した。
論文参考訳（メタデータ） (2024-12-02T22:37:59Z)
Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文参考訳（メタデータ） (2024-06-16T15:24:50Z)
EvIL: Evolution Strategies for Generalisable Imitation Learning [33.745657379141676]
模倣学習(IL)の専門家によるデモンストレーションと、学習したポリシをデプロイしたい環境は、まったく同じではありません。クローンのようなポリシー中心のアプローチと比較すると、逆強化学習(IRL)のような報酬中心のアプローチは、しばしば新しい環境における専門家の振る舞いをよりよく再現する。最新のディープILアルゴリズムは、専門家よりもはるかに弱いポリシーを導出する報酬を頻繁に回収する。本研究では,目標環境における再学習を高速化する報酬形成項を最適化する進化戦略に基づく新しい手法であるEvILを提案する。
論文参考訳（メタデータ） (2024-06-15T22:46:39Z)
Solving a Real-World Optimization Problem Using Proximal Policy Optimization with Curriculum Learning and Reward Engineering [0.8602553195689513]
本稿では,カリキュラム学習(CL)の原則と巧妙な報酬工学によって訓練されたPPOエージェントを提案する。我々の研究は、運用上の安全性、ボリューム最適化、リソース使用量の最小化という競合する目標を効果的にバランスさせることの課題に対処する。提案手法は, プラントの処理効率の向上に加えて, 推定時間の安全性を著しく向上し, ほぼゼロに近い安全性違反を達成できることを実証した。
論文参考訳（メタデータ） (2024-04-03T08:53:42Z)
Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文参考訳（メタデータ） (2023-06-27T16:15:15Z)
TASAC: a twin-actor reinforcement learning framework with stochastic policy for batch process control [1.101002667958165]
強化学習(Reinforcement Learning, RL)は、エージェントが環境と直接対話することでポリシーを学習し、この文脈において潜在的な代替手段を提供する。アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。アクターと批評家のネットワークのアンサンブルは、同時に政策学習による探索の強化により、エージェントがより良い政策を学ぶのに役立つことが示されている。
論文参考訳（メタデータ） (2022-04-22T13:00:51Z)
Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文参考訳（メタデータ） (2021-10-22T22:07:51Z)
Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文参考訳（メタデータ） (2021-06-21T21:42:08Z)
Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。 SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文参考訳（メタデータ） (2021-06-10T06:29:59Z)
Context-Based Soft Actor Critic for Environments with Non-stationary Dynamics [8.318823695156974]
本論文では, LC-SAC(Latent Context-based Soft Actor Critic)手法を提案する。コントラスト予測損失関数を最小化することにより、学習されたコンテキスト変数は、環境ダイナミクスとエージェントの最近の振る舞いに関する情報をキャプチャする。実験の結果, LC-SAC は MetaWorld ML1 タスクの SAC アルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2021-05-07T15:00:59Z)
Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文参考訳（メタデータ） (2021-03-04T18:44:03Z)
Robust Reinforcement Learning on State Observations with Learned Optimal Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。 DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文参考訳（メタデータ） (2021-01-21T05:38:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。