論文の概要: State Regularized Policy Optimization on Data with Dynamics Shift
- arxiv url: http://arxiv.org/abs/2306.03552v4
- Date: Thu, 22 Feb 2024 03:24:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 18:59:17.658585
- Title: State Regularized Policy Optimization on Data with Dynamics Shift
- Title(参考訳): ダイナミクスシフトを伴うデータに対する状態正規化ポリシー最適化
- Authors: Zhenghai Xue, Qingpeng Cai, Shuchang Liu, Dong Zheng, Peng Jiang, Kun
Gai, Bo An
- Abstract要約: 多くの実世界のシナリオでは、強化学習(RL)アルゴリズムは、動的シフトを持つデータ、すなわち、異なる環境ダイナミクスを持つデータに基づいて訓練される。
本稿では, 同様の構造と動的に異なる多くの環境において, 最適ポリシが定常状態分布と類似していることを見出した。
このような分布は、新しい環境で訓練されたポリシーを規則化するために使用され、SRPO(textbfS textbfRegularized textbfPolicy textbfOptimization)アルゴリズムにつながる。
- 参考スコア(独自算出の注目度): 25.412472472457324
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In many real-world scenarios, Reinforcement Learning (RL) algorithms are
trained on data with dynamics shift, i.e., with different underlying
environment dynamics. A majority of current methods address such issue by
training context encoders to identify environment parameters. Data with
dynamics shift are separated according to their environment parameters to train
the corresponding policy. However, these methods can be sample inefficient as
data are used \textit{ad hoc}, and policies trained for one dynamics cannot
benefit from data collected in all other environments with different dynamics.
In this paper, we find that in many environments with similar structures and
different dynamics, optimal policies have similar stationary state
distributions. We exploit such property and learn the stationary state
distribution from data with dynamics shift for efficient data reuse. Such
distribution is used to regularize the policy trained in a new environment,
leading to the SRPO (\textbf{S}tate \textbf{R}egularized \textbf{P}olicy
\textbf{O}ptimization) algorithm. To conduct theoretical analyses, the
intuition of similar environment structures is characterized by the notion of
homomorphous MDPs. We then demonstrate a lower-bound performance guarantee on
policies regularized by the stationary state distribution. In practice, SRPO
can be an add-on module to context-based algorithms in both online and offline
RL settings. Experimental results show that SRPO can make several context-based
algorithms far more data efficient and significantly improve their overall
performance.
- Abstract(参考訳): 多くの現実世界のシナリオでは、強化学習(rl)アルゴリズムは、動的シフトのあるデータ、すなわち異なる環境ダイナミクスに基づいて訓練される。
現在の手法の大部分は、環境パラメータを識別するためにコンテキストエンコーダをトレーニングすることでこの問題に対処している。
動的シフトを伴うデータは、環境パラメータに従って分離され、対応するポリシーをトレーニングする。
しかし、これらの手法は、データがtextit{ad hoc} として使用されるため、サンプル非効率であり、1つのダイナミクスのために訓練されたポリシーは、異なるダイナミクスを持つ他のすべての環境で収集されたデータから恩恵を受けることができない。
本稿では,類似した構造と異なるダイナミクスを持つ多くの環境において,最適ポリシーが類似した定常状態分布を持つことを示す。
このような特性を活用し,動的シフトを持つデータから定常状態分布を学習し,効率的なデータ再利用を行う。
そのような分布は、新しい環境で訓練されたポリシーを規則化するために使用され、SRPO(\textbf{S}tate \textbf{R}egularized \textbf{P}olicy \textbf{O}ptimization)アルゴリズムにつながる。
理論的解析を行うため、類似した環境構造の直観はホモモルファスMDPの概念によって特徴づけられる。
次に、定常状態分布によって規則化されたポリシーに対して、低いバウンド性能保証を示す。
実際には、SRPOはオンラインとオフラインのRL設定の両方でコンテキストベースのアルゴリズムのアドオンモジュールとなることができる。
実験の結果、srpoは複数のコンテキストベースのアルゴリズムをより効率的にし、全体的な性能を大幅に向上できることがわかった。
関連論文リスト
- OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。
既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。
本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文 参考訳(メタデータ) (2024-05-29T13:36:36Z) - Performative Reinforcement Learning in Gradually Shifting Environments [13.524274041966539]
強化学習(RL)エージェントが実際にデプロイされると、環境に影響を与え、そのダイナミクスを変える可能性がある。
本稿では,この現象をモデル化するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-15T10:00:13Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Fast Adaptation via Policy-Dynamics Value Functions [41.738462615120326]
本稿では,従来のトレーニングと異なる動的に迅速に適応するための新しいアプローチとして,ポリシ・ダイナミックス値関数(PD-VF)を紹介する。
PD-VFは、ポリシーと環境の空間における累積報酬を明示的に推定する。
提案手法は, MuJoCo ドメインの集合上で, 新たな動的処理に迅速に適応可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T16:47:56Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。