論文の概要: Locally Constrained Policy Optimization for Online Reinforcement
Learning in Non-Stationary Input-Driven Environments
- arxiv url: http://arxiv.org/abs/2302.02182v1
- Date: Sat, 4 Feb 2023 15:31:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 19:37:25.146121
- Title: Locally Constrained Policy Optimization for Online Reinforcement
Learning in Non-Stationary Input-Driven Environments
- Title(参考訳): 非定常入力駆動環境におけるオンライン強化学習のための局所的制約付きポリシー最適化
- Authors: Pouya Hamadanian, Arash Nasr-Esfahany, Siddartha Sen, Malte
Schwarzkopf, Mohammad Alizadeh
- Abstract要約: 非定常入力駆動環境におけるオンライン強化学習(RL)について検討する。
破滅的忘れ(CF)によるオンラインRLの課題
本稿では,古い経験を生かした政策出力を固定することでCFと戦う,地方制約型政策最適化(LCPO)について述べる。
- 参考スコア(独自算出の注目度): 9.906799799878485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study online Reinforcement Learning (RL) in non-stationary input-driven
environments, where a time-varying exogenous input process affects the
environment dynamics. Online RL is challenging in such environments due to
catastrophic forgetting (CF). The agent tends to forget prior knowledge as it
trains on new experiences. Prior approaches to mitigate this issue assume task
labels (which are often not available in practice) or use off-policy methods
that can suffer from instability and poor performance.
We present Locally Constrained Policy Optimization (LCPO), an on-policy RL
approach that combats CF by anchoring policy outputs on old experiences while
optimizing the return on current experiences. To perform this anchoring, LCPO
locally constrains policy optimization using samples from experiences that lie
outside of the current input distribution. We evaluate LCPO in two gym and
computer systems environments with a variety of synthetic and real input
traces, and find that it outperforms state-of-the-art on-policy and off-policy
RL methods in the online setting, while achieving results on-par with an
offline agent pre-trained on the whole input trace.
- Abstract(参考訳): 非定常的な入力駆動環境におけるオンライン強化学習(RL)について検討した。
オンラインRLは破滅的忘れ(CF)のため、このような環境では困難である。
エージェントは新しい経験を訓練するとき、事前の知識を忘れがちです。
この問題を軽減するための以前のアプローチでは、タスクラベル(実際には利用できないことが多い)や、不安定でパフォーマンスが悪い可能性のあるオフポリシーメソッドを想定している。
本稿では,政策出力を古い経験に固定し,現在の経験への回帰を最適化することでCFと戦う,地方制約付き政策最適化(LCPO)を提案する。
このアンカリングを行うため、LCPOは現在の入力分布の外にある経験からのサンプルを使用してポリシー最適化を局所的に制約する。
2つのジムおよびコンピュータシステム環境でlcpoを様々な合成および実入力トレースで評価し、オンライン環境では最先端のオン・ポリシーおよびオフ・ポリシーrl法を上回り、全入力トレースで事前訓練されたオフラインエージェントと同等の結果を得る。
関連論文リスト
- Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - Dynamics-Adaptive Continual Reinforcement Learning via Progressive
Contextualization [29.61829620717385]
動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。
DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。
DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
論文 参考訳(メタデータ) (2022-09-01T10:26:58Z) - AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning [13.167123175701802]
本稿では,強化学習(RL)における環境動態の変化に適応するタスクを定式化する。
次に、このような一般化タスクに対処するエンドツーエンドのアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。
シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
論文 参考訳(メタデータ) (2022-08-03T22:52:26Z) - PAnDR: Fast Adaptation to New Environments from Offline Experiences via
Decoupling Policy and Environment Representations [39.11141327059819]
我々は、迅速な政策適応のための疎結合表現を用いた政策適応(PAnDR)を提案する。
オフライン学習では、環境表現と政策表現は、対照的な学習と政策回復を通じて学習される。
オンライン適応フェーズでは、新しい環境で収集された少数の経験から環境コンテキストを推定し、勾配上昇によってポリシーを最適化する。
論文 参考訳(メタデータ) (2022-04-06T14:47:35Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - POPO: Pessimistic Offline Policy Optimization [6.122342691982727]
オフポリシーRLメソッドが、バリュー関数ビューからオフライン設定で学習できない理由について検討する。
悲観的オフライン政策最適化(POPO)を提案する。これは悲観的価値関数を学習し、強い政策を得る。
POPOは驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-12-26T06:24:34Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。