論文の概要: Pearl: A Production-ready Reinforcement Learning Agent
- arxiv url: http://arxiv.org/abs/2312.03814v1
- Date: Wed, 6 Dec 2023 18:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 17:14:28.691131
- Title: Pearl: A Production-ready Reinforcement Learning Agent
- Title(参考訳): pearl: 生産可能な強化学習エージェント
- Authors: Zheqing Zhu, Rodrigo de Salvo Braz, Jalaj Bhandari, Daniel Jiang, Yi
Wan, Yonathan Efroni, Liyuan Wang, Ruiyang Xu, Hongbo Guo, Alex Nikulkov,
Dmytro Korenkevych, Urun Dogan, Frank Cheng, Zheng Wu, Wanqiao Xu
- Abstract要約: 強化学習(RL)は、長期的な目標を達成するための汎用的なフレームワークを提供する。
既存のオープンソースのRLライブラリは、RLソリューションパイプラインの狭い部分に集中する傾向にあり、他の側面はほとんど考慮されていない。
本稿では,生産対応のRLエージェントソフトウェアであるPearlを紹介する。
- 参考スコア(独自算出の注目度): 29.37513234274847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) offers a versatile framework for achieving
long-term goals. Its generality allows us to formalize a wide range of problems
that real-world intelligent systems encounter, such as dealing with delayed
rewards, handling partial observability, addressing the exploration and
exploitation dilemma, utilizing offline data to improve online performance, and
ensuring safety constraints are met. Despite considerable progress made by the
RL research community in addressing these issues, existing open-source RL
libraries tend to focus on a narrow portion of the RL solution pipeline,
leaving other aspects largely unattended. This paper introduces Pearl, a
Production-ready RL agent software package explicitly designed to embrace these
challenges in a modular fashion. In addition to presenting preliminary
benchmark results, this paper highlights Pearl's industry adoptions to
demonstrate its readiness for production usage. Pearl is open sourced on Github
at github.com/facebookresearch/pearl and its official website is located at
pearlagent.github.io.
- Abstract(参考訳): 強化学習(RL)は、長期的な目標を達成するための汎用的なフレームワークを提供する。
その汎用性により、遅延報酬の処理、部分観測可能性の処理、探索とエクスプロイトのジレンマへの対処、オフラインデータを利用したオンラインパフォーマンスの向上、安全性の制約の確保など、現実世界のインテリジェントシステムが直面する幅広い問題をフォーマル化できます。
これらの問題に対処するRL研究コミュニティによるかなりの進歩にもかかわらず、既存のオープンソースRLライブラリは、RLソリューションパイプラインの狭い部分に集中する傾向にあり、他の側面はほとんど考慮されていない。
本稿では,これらの課題をモジュール的に受け入れるように設計された,生産対応のrlエージェントソフトウェアパッケージであるpearlを紹介する。
予備ベンチマーク結果の提示に加えて,本論文では,pearl の産業採用状況について紹介する。
PearlはGithubでgithub.com/facebookresearch/pearlでオープンソース化され、公式ウェブサイトはpearlagent.github.ioにある。
関連論文リスト
- Katakomba: Tools and Benchmarks for Data-Driven NetHack [52.0035089982277]
NetHackは強化学習研究のフロンティアとして知られている。
採用には、リソースワイド、実装ワイド、ベンチマークワイドの3つの大きな障害がある、と私たちは主張しています。
オフラインの強化学習コミュニティに慣れ親しんだワークフローの基礎を提供するオープンソースライブラリを開発した。
論文 参考訳(メタデータ) (2023-06-14T22:50:25Z) - Making Offline RL Online: Collaborative World Models for Offline Visual
Reinforcement Learning [99.59728624855566]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - A Survey of Meta-Reinforcement Learning [83.95180398234238]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - A Survey on Explainable Reinforcement Learning: Concepts, Algorithms,
Challenges [38.70863329476517]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが環境と対話して長期的な目標を達成する、一般的な機械学習パラダイムである。
励ましの結果にもかかわらず、ディープニューラルネットワークベースのバックボーンは、専門家が高いセキュリティと信頼性が不可欠である現実的なシナリオにおいて、訓練されたエージェントを信頼し、採用することを妨げるブラックボックスとして広く見なされている。
この問題を緩和するために、本質的な解釈可能性やポストホックな説明可能性を構築することにより、知的エージェントの内部動作に光を放つための大量の文献が提案されている。
論文 参考訳(メタデータ) (2022-11-12T13:52:06Z) - ARLO: A Framework for Automated Reinforcement Learning [36.91138310444942]
本稿では,AutoRLの自動パイプライン構築のためのフレームワーク,すなわちARLO: Automated Reinforcement Learningを提案する。
我々はそのようなパイプラインのPython実装を提供し、オープンソースライブラリとしてリリースしています。
我々の実装は、実証的なLQGドメインと古典的な MuJoCo 環境でテストされている。
論文 参考訳(メタデータ) (2022-05-20T19:16:04Z) - Constraint-Guided Reinforcement Learning: Augmenting the
Agent-Environment-Interaction [10.203602318836445]
強化学習(RL)エージェントは、限られたフィードバックから大きな観察とアクションスペースでタスクを解決することに成功しています。
本稿では,制約に基づく拡張モデルと深部RLの統合による信頼性エージェントのエンジニアリングについて論じる。
その結果、制約ガイダンスは信頼性の向上と安全な行動を提供するだけでなく、トレーニングを加速する。
論文 参考訳(メタデータ) (2021-04-24T10:04:14Z) - Offline Reinforcement Learning Hands-On [60.36729294485601]
オフラインのRLは、大規模なデータセットを、環境とのオンラインインタラクションなしで強力な意思決定エンジンにすることを目的としている。
この研究は、実践者の視点からこれらの取り組みを反映することを目的としている。
オフラインRLの成功には,データの多様性と高リターン例が不可欠であることを実験的に検証する。
論文 参考訳(メタデータ) (2020-11-29T14:45:02Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。