論文の概要: SCOPE-RL: A Python Library for Offline Reinforcement Learning and
Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2311.18206v1
- Date: Thu, 30 Nov 2023 02:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 18:17:50.440295
- Title: SCOPE-RL: A Python Library for Offline Reinforcement Learning and
Off-Policy Evaluation
- Title(参考訳): SCOPE-RL: オフライン強化学習とオフライン評価のためのPythonライブラリ
- Authors: Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi,
Kazuhide Nakata, Yuta Saito
- Abstract要約: SCOPE-RLは、オフライン強化学習(オフラインRL)、オフポリシー評価(OPE)、選択(OPS)のために設計されたPythonソフトウェアである。
SCOPE-RLはOPEモジュールに特に重点を置いており、様々なOPE推定器と堅牢なOPEプロトコルを提供している。
- 参考スコア(独自算出の注目度): 17.319113169622806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces SCOPE-RL, a comprehensive open-source Python software
designed for offline reinforcement learning (offline RL), off-policy evaluation
(OPE), and selection (OPS). Unlike most existing libraries that focus solely on
either policy learning or evaluation, SCOPE-RL seamlessly integrates these two
key aspects, facilitating flexible and complete implementations of both offline
RL and OPE processes. SCOPE-RL put particular emphasis on its OPE modules,
offering a range of OPE estimators and robust evaluation-of-OPE protocols. This
approach enables more in-depth and reliable OPE compared to other packages. For
instance, SCOPE-RL enhances OPE by estimating the entire reward distribution
under a policy rather than its mere point-wise expected value. Additionally,
SCOPE-RL provides a more thorough evaluation-of-OPE by presenting the
risk-return tradeoff in OPE results, extending beyond mere accuracy evaluations
in existing OPE literature. SCOPE-RL is designed with user accessibility in
mind. Its user-friendly APIs, comprehensive documentation, and a variety of
easy-to-follow examples assist researchers and practitioners in efficiently
implementing and experimenting with various offline RL methods and OPE
estimators, tailored to their specific problem contexts. The documentation of
SCOPE-RL is available at https://scope-rl.readthedocs.io/en/latest/.
- Abstract(参考訳): 本稿では、オフライン強化学習(オフラインRL)、オフ政治評価(OPE)、選択(OPS)のために設計されたオープンソースPythonソフトウェアSCOPE-RLを紹介する。
ポリシー学習や評価にのみフォーカスする既存のライブラリとは異なり、SCOPE-RLはこれらの2つの重要な側面をシームレスに統合し、オフラインのRLプロセスとOPEプロセスの両方の柔軟で完全な実装を容易にします。
SCOPE-RLはOPEモジュールに特に重点を置いており、様々なOPE推定器と堅牢なOPEプロトコルを提供している。
このアプローチは、他のパッケージよりも奥深く、信頼性の高いOPEを可能にします。
例えば scope-rl は、単なるポイント単位での期待値ではなく、ポリシーの下での報酬分布全体を見積もることで ope を強化する。
さらに、SCOPE-RLは、OPE結果のリスク・リターントレードオフを提示し、既存のOPE文献の単なる精度評価を超えて、より徹底的なOPEの評価を提供する。
SCOPE-RLはユーザアクセシビリティを念頭に設計されている。
ユーザフレンドリなAPI、包括的なドキュメント、そしてさまざまな簡単に追跡できる例は、研究者や実践者が、特定の問題コンテキストに合わせて、さまざまなオフラインRLメソッドやOPE推定器を効率的に実装し、実験するのに役立つ。
scope-rlのドキュメントはhttps://scope-rl.readthedocs.io/en/latest/で入手できる。
関連論文リスト
- Preference-Guided Reinforcement Learning for Efficient Exploration [7.83845308102632]
LOPE: Learning Online with trajectory Preference guidancE, a end-to-end preference-guided RL framework。
我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。
LOPEは収束率と全体的な性能に関して、最先端のいくつかの手法より優れている。
論文 参考訳(メタデータ) (2024-07-09T02:11:12Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Robust Offline Reinforcement learning with Heavy-Tailed Rewards [20.853722868503162]
本稿では, ROAM と ROOM の2つのアルゴリズムフレームワークを提案する。
これは、OPOにおける悲観主義の原則に固執するだけでなく、重厚な報酬も十分に管理している。
論文 参考訳(メタデータ) (2023-10-28T14:24:26Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z) - CORL: Research-oriented Deep Offline Reinforcement Learning Library [48.47248460865739]
CORLはオープンソースのライブラリで、強化学習アルゴリズムの完全なベンチマークによる単一ファイルの実装を提供する。
単純で現代的な分析追跡ツールによる、シンプルな開発経験を強調している。
論文 参考訳(メタデータ) (2022-10-13T15:40:11Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Model Selection for Offline Reinforcement Learning: Practical
Considerations for Healthcare Settings [13.376364233897528]
強化学習は治療方針を学習し、医療における意思決定を支援するために用いられる。
モデル選択のための標準的な検証パイプラインは、実際の環境で学習したポリシーを実行する必要がある。
我々の研究は、オフラインのRLモデル選択のための実用的なガイドとして機能し、実世界のデータセットを使用してRL実践者がポリシーを選択するのに役立つ。
論文 参考訳(メタデータ) (2021-07-23T02:41:51Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。