論文の概要: B2RL: An open-source Dataset for Building Batch Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.15626v1
- Date: Fri, 30 Sep 2022 17:54:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 16:18:44.490328
- Title: B2RL: An open-source Dataset for Building Batch Reinforcement Learning
- Title(参考訳): B2RL: バッチ強化学習を構築するためのオープンソースのデータセット
- Authors: Hsin-Yu Liu (1), Xiaohan Fu (1), Bharathan Balaji (2), Rajesh Gupta
(1), and Dezhi Hong (2) ((1) University of California, San Diego, (2) Amazon)
- Abstract要約: バッチ強化学習(BRL)は、RLコミュニティにおける新興研究分野である。
BRL学習のために構築データセットをオープンソースにしたのは,私たちが初めてです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Batch reinforcement learning (BRL) is an emerging research area in the RL
community. It learns exclusively from static datasets (i.e. replay buffers)
without interaction with the environment. In the offline settings, existing
replay experiences are used as prior knowledge for BRL models to find the
optimal policy. Thus, generating replay buffers is crucial for BRL model
benchmark. In our B2RL (Building Batch RL) dataset, we collected real-world
data from our building management systems, as well as buffers generated by
several behavioral policies in simulation environments. We believe it could
help building experts on BRL research. To the best of our knowledge, we are the
first to open-source building datasets for the purpose of BRL learning.
- Abstract(参考訳): バッチ強化学習(BRL)は、RLコミュニティにおける新興研究分野である。
環境と対話することなく、静的なデータセット(すなわちバッファを再生する)からのみ学習する。
オフライン設定では、既存のリプレイ体験がBRLモデルの事前知識として使われ、最適なポリシーが見つかる。
したがって、BRLモデルベンチマークではリプレイバッファの生成が重要である。
B2RL(Building Batch RL)データセットでは、ビル管理システムから実際のデータと、シミュレーション環境におけるいくつかの行動ポリシーによって生成されたバッファを収集しました。
BRL研究の専門家の育成に役立つとわれわれは考えている。
私たちの知る限りでは、BRL学習のために構築データセットをオープンソースにしたのは、私たちが初めてです。
関連論文リスト
- A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。
本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。
TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文 参考訳(メタデータ) (2024-07-12T16:44:03Z) - TeaMs-RL: Teaching LLMs to Generate Better Instruction Datasets via Reinforcement Learning [7.9961739811640244]
大規模言語モデルの開発は、人間のアノテーションに大きく依存することによる課題に直面することが多い。
この作業では、強化学習(Reinforcement Learning)へと方向転換します。
我々はRLを用いて、微調整だけで十分である基礎的な命令データセットを直接生成する。
論文 参考訳(メタデータ) (2024-03-13T16:57:57Z) - Open RL Benchmark: Comprehensive Tracked Experiments for Reinforcement
Learning [41.971465819626005]
我々は、完全に追跡されたRL実験のセットであるOpen RL Benchmarkを紹介する。
Open RL Benchmarkはコミュニティ主導で、誰でもダウンロード、使用、データへのコントリビューションが可能です。
それぞれの実験が正確に再現可能であることを保証するため、特別に注意が払われる。
論文 参考訳(メタデータ) (2024-02-05T14:32:00Z) - A Survey on Model-based Reinforcement Learning [21.85904195671014]
強化学習(Reinforcement Learning, RL)は、環境と対話する試行錯誤プロセスを通じて、シーケンシャルな意思決定問題を解決する。
モデルベース強化学習(MBRL)は有望な方向であり、実際のコストなしで試行錯誤を行う環境モデルを構築する。
論文 参考訳(メタデータ) (2022-06-19T05:28:03Z) - When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning? [86.43517734716606]
オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。
行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。
十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-04-12T08:25:34Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - RL4RS: A Real-World Dataset for Reinforcement Learning based Recommender
System [26.097154801770245]
強化学習に基づく推薦システム (RL-based RS) は,収集したデータのバッチから適切なポリシーを学習することを目的としている。
現在のRLベースのRS研究は、一般的に大きな現実的ギャップがある。
人工データセットと半シミュレートされたRSデータセットを置き換えることを願っている、最初のオープンソースの実世界のデータセットであるRL4RSを紹介します。
論文 参考訳(メタデータ) (2021-10-18T12:48:02Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。