論文の概要: Katakomba: Tools and Benchmarks for Data-Driven NetHack
- arxiv url: http://arxiv.org/abs/2306.08772v2
- Date: Thu, 26 Oct 2023 18:51:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 17:44:26.323300
- Title: Katakomba: Tools and Benchmarks for Data-Driven NetHack
- Title(参考訳): Katakomba: データ駆動NetHackのツールとベンチマーク
- Authors: Vladislav Kurenkov, Alexander Nikulin, Denis Tarasov, Sergey
Kolesnikov
- Abstract要約: NetHackは強化学習研究のフロンティアとして知られている。
採用には、リソースワイド、実装ワイド、ベンチマークワイドの3つの大きな障害がある、と私たちは主張しています。
オフラインの強化学習コミュニティに慣れ親しんだワークフローの基礎を提供するオープンソースライブラリを開発した。
- 参考スコア(独自算出の注目度): 52.0035089982277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NetHack is known as the frontier of reinforcement learning research where
learning-based methods still need to catch up to rule-based solutions. One of
the promising directions for a breakthrough is using pre-collected datasets
similar to recent developments in robotics, recommender systems, and more under
the umbrella of offline reinforcement learning (ORL). Recently, a large-scale
NetHack dataset was released; while it was a necessary step forward, it has yet
to gain wide adoption in the ORL community. In this work, we argue that there
are three major obstacles for adoption: resource-wise, implementation-wise, and
benchmark-wise. To address them, we develop an open-source library that
provides workflow fundamentals familiar to the ORL community: pre-defined
D4RL-style tasks, uncluttered baseline implementations, and reliable evaluation
tools with accompanying configs and logs synced to the cloud.
- Abstract(参考訳): NetHackは強化学習研究のフロンティアとして知られており、学習ベースの手法は依然としてルールベースのソリューションに追いつく必要がある。
ブレークスルーの有望な方向の1つは、ロボット工学やレコメンダシステムなどの最近の開発に類似したデータセットを、オフライン強化学習(orl)の傘下で使用することである。
最近、大規模なNetHackデータセットがリリースされた。これは必要なステップだったが、まだORLコミュニティで広く採用されていない。
本研究では、リソースワイド、実装ワイド、ベンチマークワイドの3つの大きな障害が存在すると論じる。
そこで我々は, ORLコミュニティに慣れ親しんだワークフローの基礎を提供するオープンソースライブラリを開発した。D4RLスタイルのタスク, 乱雑なベースライン実装, クラウドに同期した設定とログを備えた信頼性評価ツールである。
関連論文リスト
- SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - A Real-World Quadrupedal Locomotion Benchmark for Offline Reinforcement
Learning [27.00483962026472]
現実的な四足歩行データセットにおける11のオフライン強化学習アルゴリズムをベンチマークした。
実験の結果,ORLアルゴリズムはモデルフリーのRLに比べて競争性能がよいことがわかった。
提案するベンチマークは,実世界の歩行作業におけるORLアルゴリズムの性能をテスト・評価するための開発プラットフォームとして機能する。
論文 参考訳(メタデータ) (2023-09-13T13:18:29Z) - Benchmarking Offline Reinforcement Learning on Real-Robot Hardware [35.29390454207064]
特にデクサラスな操作は、その一般的な形式において未解決の問題である。
本稿では,2つのタスク上の厳密な操作プラットフォームからオフライン学習のための大量のデータを含むベンチマークを提案する。
実システム上でのオフライン強化学習のための再現可能な実験的なセットアップを提供する。
論文 参考訳(メタデータ) (2023-07-28T17:29:49Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - CORL: Research-oriented Deep Offline Reinforcement Learning Library [48.47248460865739]
CORLはオープンソースのライブラリで、強化学習アルゴリズムの完全なベンチマークによる単一ファイルの実装を提供する。
単純で現代的な分析追跡ツールによる、シンプルな開発経験を強調している。
論文 参考訳(メタデータ) (2022-10-13T15:40:11Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。