論文の概要: CORL: Research-oriented Deep Offline Reinforcement Learning Library
- arxiv url: http://arxiv.org/abs/2210.07105v4
- Date: Thu, 26 Oct 2023 19:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 18:56:19.610242
- Title: CORL: Research-oriented Deep Offline Reinforcement Learning Library
- Title(参考訳): CORL: 深部オフライン強化学習ライブラリ
- Authors: Denis Tarasov, Alexander Nikulin, Dmitry Akimov, Vladislav Kurenkov,
Sergey Kolesnikov
- Abstract要約: CORLはオープンソースのライブラリで、強化学習アルゴリズムの完全なベンチマークによる単一ファイルの実装を提供する。
単純で現代的な分析追跡ツールによる、シンプルな開発経験を強調している。
- 参考スコア(独自算出の注目度): 48.47248460865739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CORL is an open-source library that provides thoroughly benchmarked
single-file implementations of both deep offline and offline-to-online
reinforcement learning algorithms. It emphasizes a simple developing experience
with a straightforward codebase and a modern analysis tracking tool. In CORL,
we isolate methods implementation into separate single files, making
performance-relevant details easier to recognize. Additionally, an experiment
tracking feature is available to help log metrics, hyperparameters,
dependencies, and more to the cloud. Finally, we have ensured the reliability
of the implementations by benchmarking commonly employed D4RL datasets
providing a transparent source of results that can be reused for robust
evaluation tools such as performance profiles, probability of improvement, or
expected online performance.
- Abstract(参考訳): CORLはオープンソースのライブラリで、オフラインとオフラインの強化学習アルゴリズムの両方で、徹底的にベンチマークされた単一ファイルの実装を提供する。
簡単なコードベースと現代的な分析追跡ツールを使って、シンプルな開発体験を強調する。
CORLでは、メソッドの実装を個別のファイルに分離し、パフォーマンス関連の詳細を認識しやすくする。
さらに、メトリクス、ハイパーパラメータ、依存関係などをクラウドにログする実験追跡機能も提供されている。
最後に、一般的なD4RLデータセットをベンチマークすることで実装の信頼性を保証し、パフォーマンスプロファイルや改善の確率、期待されるオンラインパフォーマンスなどの堅牢な評価ツールに再利用可能な、透過的な結果のソースを提供する。
関連論文リスト
- Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - Open RL Benchmark: Comprehensive Tracked Experiments for Reinforcement
Learning [41.971465819626005]
我々は、完全に追跡されたRL実験のセットであるOpen RL Benchmarkを紹介する。
Open RL Benchmarkはコミュニティ主導で、誰でもダウンロード、使用、データへのコントリビューションが可能です。
それぞれの実験が正確に再現可能であることを保証するため、特別に注意が払われる。
論文 参考訳(メタデータ) (2024-02-05T14:32:00Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。
2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文 参考訳(メタデータ) (2022-06-09T22:08:47Z) - Importance of Empirical Sample Complexity Analysis for Offline
Reinforcement Learning [55.90351453865001]
オフラインデータから学習するサンプルの数に依存しているかどうかを問う。
我々の目的は、オフラインRLのサンプル複雑性の研究が重要であり、既存のオフラインアルゴリズムの有用性を示す指標である点を強調することである。
論文 参考訳(メタデータ) (2021-12-31T18:05:33Z) - CleanRL: High-quality Single-file Implementations of Deep Reinforcement
Learning Algorithms [0.0]
CleanRLはオープンソースのライブラリで、Deep Reinforcement Learningアルゴリズムの高品質なシングルファイル実装を提供する。
シンプルでスケーラブルな開発エクスペリエンスを提供し、運用ツールをシンプルに統合します。
論文 参考訳(メタデータ) (2021-11-16T22:44:56Z) - Offline Reinforcement Learning with Value-based Episodic Memory [19.12430651038357]
オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。
本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。
本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T08:20:11Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。