論文の概要: CleanRL: High-quality Single-file Implementations of Deep Reinforcement
Learning Algorithms
- arxiv url: http://arxiv.org/abs/2111.08819v1
- Date: Tue, 16 Nov 2021 22:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 00:21:33.162864
- Title: CleanRL: High-quality Single-file Implementations of Deep Reinforcement
Learning Algorithms
- Title(参考訳): CleanRL: 深層強化学習アルゴリズムの高品質単一ファイル実装
- Authors: Shengyi Huang, Rousslan Fernand Julien Dossa, Chang Ye, Jeff Braga
- Abstract要約: CleanRLはオープンソースのライブラリで、Deep Reinforcement Learningアルゴリズムの高品質なシングルファイル実装を提供する。
シンプルでスケーラブルな開発エクスペリエンスを提供し、運用ツールをシンプルに統合します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CleanRL is an open-source library that provides high-quality single-file
implementations of Deep Reinforcement Learning algorithms. It provides a
simpler yet scalable developing experience by having a straightforward codebase
and integrating production tools to help interact and scale experiments. In
CleanRL, we put all details of an algorithm into a single file, making these
performance-relevant details easier to recognize. Additionally, an experiment
tracking feature is available to help log metrics, hyperparameters, videos of
an agent's gameplay, dependencies, and more to the cloud. Despite succinct
implementations, we have also designed tools to help scale, at one point
orchestrating experiments on more than 2000 machines simultaneously via Docker
and cloud providers. Finally, we have ensured the quality of the
implementations by benchmarking against a variety of environments. The source
code of CleanRL can be found at https://github.com/vwxyzjn/cleanrl
- Abstract(参考訳): CleanRLはオープンソースのライブラリで、Deep Reinforcement Learningアルゴリズムの高品質なシングルファイル実装を提供する。
コードベースが単純でスケーラブルな開発エクスペリエンスを提供し、運用ツールを統合して、実験の対話とスケールアップを支援します。
CleanRLでは、アルゴリズムのすべての詳細を単一のファイルに配置し、これらのパフォーマンス関連の詳細を容易に認識できるようにする。
さらに、メトリクス、ハイパーパラメータ、エージェントのゲームプレイのビデオ、依存関係、その他をクラウドに記録するための実験追跡機能も提供されている。
簡潔な実装にもかかわらず、私たちはスケールを支援するツールも設計しました。
最後に、さまざまな環境に対してベンチマークすることで、実装の品質を確保しました。
CleanRLのソースコードはhttps://github.com/vwxyzjn/cleanrlにある。
関連論文リスト
- Cuvis.Ai: An Open-Source, Low-Code Software Ecosystem for Hyperspectral Processing and Classification [0.4038539043067986]
cuvis.aiは、データ取得、前処理、モデルトレーニングのためのオープンソースでローコードなソフトウェアエコシステムである。
パッケージはPythonで書かれており、一般的な機械学習ライブラリのラッパーを提供する。
論文 参考訳(メタデータ) (2024-11-18T06:33:40Z) - Advanced Detection of Source Code Clones via an Ensemble of Unsupervised Similarity Measures [0.0]
本研究では,コード類似度評価のための新しいアンサンブル学習手法を提案する。
鍵となる考え方は、様々な類似度尺度の強みが互いに補完し、個々の弱点を軽減することである。
論文 参考訳(メタデータ) (2024-05-03T13:42:49Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - CORL: Research-oriented Deep Offline Reinforcement Learning Library [48.47248460865739]
CORLはオープンソースのライブラリで、強化学習アルゴリズムの完全なベンチマークによる単一ファイルの実装を提供する。
単純で現代的な分析追跡ツールによる、シンプルな開発経験を強調している。
論文 参考訳(メタデータ) (2022-10-13T15:40:11Z) - DiSparse: Disentangled Sparsification for Multitask Model Compression [92.84435347164435]
DiSparseは、シンプルで効果的で、第一級のマルチタスクプルーニングとスパーストレーニングスキームである。
実験の結果,様々な設定や設定において優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-09T17:57:46Z) - Parallel Actors and Learners: A Framework for Generating Scalable RL
Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。
現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。
マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T21:00:53Z) - Generative and reproducible benchmarks for comprehensive evaluation of
machine learning classifiers [6.605210393590192]
Diverse and GENerative ML Benchmark (DIGEN)は、機械学習アルゴリズムのベンチマークのための合成データセットの集合である。
詳細なドキュメンテーションと分析を備えたリソースはオープンソースであり、GitHubで公開されている。
論文 参考訳(メタデータ) (2021-07-14T03:58:02Z) - How Useful is Self-Supervised Pretraining for Visual Tasks? [133.1984299177874]
我々は、総合的な合成データセットと下流タスクにまたがる様々な自己教師付きアルゴリズムを評価する。
我々の実験は、利用可能なラベルの数が増えるにつれて、セルフスーパービジョンの有用性がどう変化するかについての洞察を提供する。
論文 参考訳(メタデータ) (2020-03-31T16:03:22Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。