論文の概要: Non-Stationary Off-Policy Optimization
- arxiv url: http://arxiv.org/abs/2006.08236v3
- Date: Sun, 4 Apr 2021 06:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 02:11:16.312823
- Title: Non-Stationary Off-Policy Optimization
- Title(参考訳): 非定常オフポリシー最適化
- Authors: Joey Hong and Branislav Kveton and Manzil Zaheer and Yinlam Chow and
Amr Ahmed
- Abstract要約: 本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
- 参考スコア(独自算出の注目度): 50.41335279896062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy learning is a framework for evaluating and optimizing policies
without deploying them, from data collected by another policy. Real-world
environments are typically non-stationary and the offline learned policies
should adapt to these changes. To address this challenge, we study the novel
problem of off-policy optimization in piecewise-stationary contextual bandits.
Our proposed solution has two phases. In the offline learning phase, we
partition logged data into categorical latent states and learn a near-optimal
sub-policy for each state. In the online deployment phase, we adaptively switch
between the learned sub-policies based on their performance. This approach is
practical and analyzable, and we provide guarantees on both the quality of
off-policy optimization and the regret during online deployment. To show the
effectiveness of our approach, we compare it to state-of-the-art baselines on
both synthetic and real-world datasets. Our approach outperforms methods that
act only on observed context.
- Abstract(参考訳): オフ政治学習は、他のポリシーによって収集されたデータから、ポリシーをデプロイせずに評価し、最適化するためのフレームワークである。
現実の環境は一般的に非定常的であり、オフラインで学んだポリシーはこれらの変化に適応すべきである。
この課題に対処するために,断片的定常的文脈的バンディットにおけるオフポリシー最適化の新たな課題について検討する。
提案する解には2つの段階がある。
オフライン学習フェーズでは、ログしたデータをカテゴリ的潜在状態に分割し、各状態について最適に近いサブポリシを学習します。
オンラインデプロイメントフェーズでは、そのパフォーマンスに基づいて学習したサブポリティシーを適応的に切り替えます。
このアプローチは実用的かつ分析可能であり、オフ・ポリシー最適化の品質とオンラインデプロイメントにおける後悔の両面を保証します。
本手法の有効性を示すために,合成データと実世界のデータセットの両方における最先端のベースラインと比較した。
我々の手法は観察された文脈にのみ作用する手法より優れている。
関連論文リスト
- Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z) - Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning [9.341618348621662]
オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。
まず本研究では,本質的な報酬と UCB に基づくオンラインRL探索手法について検討する。
そして,これらの問題を回避するために,配当を廃止する計画を立てるアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-09T13:47:05Z) - PAnDR: Fast Adaptation to New Environments from Offline Experiences via
Decoupling Policy and Environment Representations [39.11141327059819]
我々は、迅速な政策適応のための疎結合表現を用いた政策適応(PAnDR)を提案する。
オフライン学習では、環境表現と政策表現は、対照的な学習と政策回復を通じて学習される。
オンライン適応フェーズでは、新しい環境で収集された少数の経験から環境コンテキストを推定し、勾配上昇によってポリシーを最適化する。
論文 参考訳(メタデータ) (2022-04-06T14:47:35Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Offline Neural Contextual Bandits: Pessimism, Optimization and
Generalization [42.865641215856925]
本稿では,ニューラルネットワーク関数近似を用いた効率の良いオフラインコンテキスト帯域幅を提案する。
本手法は,従来のOPL法よりも分布シフトの軽度な条件下で,未知の文脈を一般化することを示す。
また, 実世界のOPL問題において, 提案手法の実証的有効性を示す。
論文 参考訳(メタデータ) (2021-11-27T03:57:13Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Off-policy Learning for Remote Electrical Tilt Optimization [68.8204255655161]
本稿では,オフポリティクス型マルチアーマッド・バンディット(CMAB)技術を用いた遠隔電気ティルト(RET)最適化の課題に対処する。
データから最適な傾き更新ポリシーを抽出するためのCMAB学習アルゴリズムを提案する。
当社のポリシでは,データ収集に使用されるルールベースのロギングポリシに対して,一貫した改善が示されています。
論文 参考訳(メタデータ) (2020-05-21T11:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。