Fugu-MT 論文翻訳(概要): Online Reinforcement Learning in Non-Stationary Context-Driven Environments

論文の概要: Online Reinforcement Learning in Non-Stationary Context-Driven Environments

arxiv url: http://arxiv.org/abs/2302.02182v2
Date: Sat, 10 Feb 2024 23:08:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 01:15:56.733975
Title: Online Reinforcement Learning in Non-Stationary Context-Driven Environments
Title（参考訳）: 非定常環境におけるオンライン強化学習
Authors: Pouya Hamadanian, Arash Nasr-Esfahany, Malte Schwarzkopf, Siddartha Sen, Mohammad Alizadeh
Abstract要約: 非定常環境におけるオンライン強化学習(RL)について検討する。オンラインRLは「破滅的忘れ」 (CF) によってこのような環境において困難である我々は,従来の経験に則った政策出力を固定することでCFと戦うオンラインRLアプローチであるローカル制約政策最適化(LCPO)を提示する。
参考スコア（独自算出の注目度）: 13.898711495948254
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study online reinforcement learning (RL) in non-stationary environments, where a time-varying exogenous context process affects the environment dynamics. Online RL is challenging in such environments due to "catastrophic forgetting" (CF). The agent tends to forget prior knowledge as it trains on new experiences. Prior approaches to mitigate this issue assume task labels (which are often not available in practice) or use off-policy methods that suffer from instability and poor performance. We present Locally Constrained Policy Optimization (LCPO), an online RL approach that combats CF by anchoring policy outputs on old experiences while optimizing the return on current experiences. To perform this anchoring, LCPO locally constrains policy optimization using samples from experiences that lie outside of the current context distribution. We evaluate LCPO in Mujoco, classic control and computer systems environments with a variety of synthetic and real context traces, and find that it outperforms state-of-the-art on-policy and off-policy RL methods in the non-stationary setting, while achieving results on-par with an "oracle" agent trained offline across all context traces.
Abstract（参考訳）: 本研究では,非定常環境におけるオンライン強化学習(rl)について検討する。このような環境では、オンラインrlは "catastrophic forgetting" (cf) によって困難である。エージェントは新しい経験を訓練するとき、事前の知識を忘れがちです。この問題を軽減するための以前のアプローチでは、タスクラベル(実際には利用できないことが多い)や、不安定でパフォーマンスの悪いオフポリシーメソッドを想定している。ローカル制約付き政策最適化(LCPO, Locally Constrained Policy Optimization)は, 古い経験にポリシー出力を固定し, 現在の経験への回帰を最適化し, CFと戦うオンラインRLアプローチである。このアンカリングを行うため、LCPOは現在のコンテキスト分布の外にある経験からのサンプルを使用してポリシー最適化を局所的に制約する。 mujoco,classic control,computer systems環境においてlcpoを評価し,非定常環境では最先端のオン・ポリシーおよびオフ・ポリシーのrlメソッドよりも優れており,すべてのコンテキストトレースでオフラインでトレーニングされた"oracle"エージェントとほぼ同等の結果が得られた。

関連論文リスト

Provable Zero-Shot Generalization in Offline Reinforcement Learning [55.169228792596805]
ゼロショット一般化特性(ZSG)を用いたオフライン強化学習について検討する。既存の研究によると、古典的なオフラインRLは新しい、目に見えない環境に一般化できなかった。 PERM と PPPO はともに,ZSG による準最適政策を見出すことができることを示す。
論文参考訳（メタデータ） (2025-03-11T02:44:32Z)
Survival of the Fittest: Evolutionary Adaptation of Policies for Environmental Shifts [0.15889427269227555]
進化ゲーム理論(EGT)にインスパイアされた適応的再学習アルゴリズムを開発する。 ERPOは、ポリシー適応の高速化、平均報酬の向上、およびポリシー適応の計算コストの削減を示す。
論文参考訳（メタデータ） (2024-10-22T09:29:53Z)
Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文参考訳（メタデータ） (2024-06-26T15:59:13Z)
Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文参考訳（メタデータ） (2023-11-25T00:30:58Z)
Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文参考訳（メタデータ） (2023-06-27T16:15:15Z)
Dynamics-Adaptive Continual Reinforcement Learning via Progressive Contextualization [29.61829620717385]
動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。 DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。 DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
論文参考訳（メタデータ） (2022-09-01T10:26:58Z)
AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning [13.167123175701802]
本稿では,強化学習(RL)における環境動態の変化に適応するタスクを定式化する。次に、このような一般化タスクに対処するエンドツーエンドのアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
論文参考訳（メタデータ） (2022-08-03T22:52:26Z)
PAnDR: Fast Adaptation to New Environments from Offline Experiences via Decoupling Policy and Environment Representations [39.11141327059819]
我々は、迅速な政策適応のための疎結合表現を用いた政策適応(PAnDR)を提案する。オフライン学習では、環境表現と政策表現は、対照的な学習と政策回復を通じて学習される。オンライン適応フェーズでは、新しい環境で収集された少数の経験から環境コンテキストを推定し、勾配上昇によってポリシーを最適化する。
論文参考訳（メタデータ） (2022-04-06T14:47:35Z)
Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文参考訳（メタデータ） (2021-11-03T08:02:48Z)
POPO: Pessimistic Offline Policy Optimization [6.122342691982727]
オフポリシーRLメソッドが、バリュー関数ビューからオフライン設定で学習できない理由について検討する。悲観的オフライン政策最適化(POPO)を提案する。これは悲観的価値関数を学習し、強い政策を得る。 POPOは驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールする。
論文参考訳（メタデータ） (2020-12-26T06:24:34Z)
Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文参考訳（メタデータ） (2020-06-18T17:34:50Z)
Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文参考訳（メタデータ） (2020-06-15T09:16:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。