論文の概要: Online Reinforcement Learning in Non-Stationary Context-Driven
Environments
- arxiv url: http://arxiv.org/abs/2302.02182v2
- Date: Sat, 10 Feb 2024 23:08:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 01:15:56.733975
- Title: Online Reinforcement Learning in Non-Stationary Context-Driven
Environments
- Title(参考訳): 非定常環境におけるオンライン強化学習
- Authors: Pouya Hamadanian, Arash Nasr-Esfahany, Malte Schwarzkopf, Siddartha
Sen, Mohammad Alizadeh
- Abstract要約: 非定常環境におけるオンライン強化学習(RL)について検討する。
オンラインRLは「破滅的忘れ」 (CF) によってこのような環境において困難である
我々は,従来の経験に則った政策出力を固定することでCFと戦うオンラインRLアプローチであるローカル制約政策最適化(LCPO)を提示する。
- 参考スコア(独自算出の注目度): 13.898711495948254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study online reinforcement learning (RL) in non-stationary environments,
where a time-varying exogenous context process affects the environment
dynamics. Online RL is challenging in such environments due to "catastrophic
forgetting" (CF). The agent tends to forget prior knowledge as it trains on new
experiences. Prior approaches to mitigate this issue assume task labels (which
are often not available in practice) or use off-policy methods that suffer from
instability and poor performance.
We present Locally Constrained Policy Optimization (LCPO), an online RL
approach that combats CF by anchoring policy outputs on old experiences while
optimizing the return on current experiences. To perform this anchoring, LCPO
locally constrains policy optimization using samples from experiences that lie
outside of the current context distribution. We evaluate LCPO in Mujoco,
classic control and computer systems environments with a variety of synthetic
and real context traces, and find that it outperforms state-of-the-art
on-policy and off-policy RL methods in the non-stationary setting, while
achieving results on-par with an "oracle" agent trained offline across all
context traces.
- Abstract(参考訳): 本研究では,非定常環境におけるオンライン強化学習(rl)について検討する。
このような環境では、オンラインrlは "catastrophic forgetting" (cf) によって困難である。
エージェントは新しい経験を訓練するとき、事前の知識を忘れがちです。
この問題を軽減するための以前のアプローチでは、タスクラベル(実際には利用できないことが多い)や、不安定でパフォーマンスの悪いオフポリシーメソッドを想定している。
ローカル制約付き政策最適化(LCPO, Locally Constrained Policy Optimization)は, 古い経験にポリシー出力を固定し, 現在の経験への回帰を最適化し, CFと戦うオンラインRLアプローチである。
このアンカリングを行うため、LCPOは現在のコンテキスト分布の外にある経験からのサンプルを使用してポリシー最適化を局所的に制約する。
mujoco,classic control,computer systems環境においてlcpoを評価し,非定常環境では最先端のオン・ポリシーおよびオフ・ポリシーのrlメソッドよりも優れており,すべてのコンテキストトレースでオフラインでトレーニングされた"oracle"エージェントとほぼ同等の結果が得られた。
関連論文リスト
- Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - Dynamics-Adaptive Continual Reinforcement Learning via Progressive
Contextualization [29.61829620717385]
動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。
DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。
DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
論文 参考訳(メタデータ) (2022-09-01T10:26:58Z) - AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning [13.167123175701802]
本稿では,強化学習(RL)における環境動態の変化に適応するタスクを定式化する。
次に、このような一般化タスクに対処するエンドツーエンドのアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。
シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
論文 参考訳(メタデータ) (2022-08-03T22:52:26Z) - PAnDR: Fast Adaptation to New Environments from Offline Experiences via
Decoupling Policy and Environment Representations [39.11141327059819]
我々は、迅速な政策適応のための疎結合表現を用いた政策適応(PAnDR)を提案する。
オフライン学習では、環境表現と政策表現は、対照的な学習と政策回復を通じて学習される。
オンライン適応フェーズでは、新しい環境で収集された少数の経験から環境コンテキストを推定し、勾配上昇によってポリシーを最適化する。
論文 参考訳(メタデータ) (2022-04-06T14:47:35Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - POPO: Pessimistic Offline Policy Optimization [6.122342691982727]
オフポリシーRLメソッドが、バリュー関数ビューからオフライン設定で学習できない理由について検討する。
悲観的オフライン政策最適化(POPO)を提案する。これは悲観的価値関数を学習し、強い政策を得る。
POPOは驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-12-26T06:24:34Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。