論文の概要: Acme: A Research Framework for Distributed Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.00979v2
- Date: Tue, 20 Sep 2022 17:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 06:06:25.285218
- Title: Acme: A Research Framework for Distributed Reinforcement Learning
- Title(参考訳): Acme: 分散強化学習のための研究フレームワーク
- Authors: Matthew W. Hoffman, Bobak Shahriari, John Aslanides, Gabriel
Barth-Maron, Nikola Momchev, Danila Sinopalnikov, Piotr Sta\'nczyk, Sabela
Ramos, Anton Raichuk, Damien Vincent, L\'eonard Hussenot, Robert Dadashi,
Gabriel Dulac-Arnold, Manu Orsini, Alexis Jacq, Johan Ferret, Nino Vieillard,
Seyed Kamyar Seyed Ghasemipour, Sertan Girgin, Olivier Pietquin, Feryal
Behbahani, Tamara Norman, Abbas Abdolmaleki, Albin Cassirer, Fan Yang, Kate
Baumli, Sarah Henderson, Abe Friesen, Ruba Haroun, Alex Novikov, Sergio
G\'omez Colmenarejo, Serkan Cabi, Caglar Gulcehre, Tom Le Paine, Srivatsan
Srinivasan, Andrew Cowie, Ziyu Wang, Bilal Piot, Nando de Freitas
- Abstract要約: 本稿では,新しい深部強化学習(RL)アルゴリズムを構築するためのフレームワークであるAcmeについて述べる。
これは、Acmeが大規模な分散RLアルゴリズムの実装にどのように使用できるかを示し、その実装の本質的な可読性を維持しながら、大規模に実行できることを示している。
- 参考スコア(独自算出の注目度): 42.829073211509886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (RL) has led to many recent and groundbreaking
advances. However, these advances have often come at the cost of both increased
scale in the underlying architectures being trained as well as increased
complexity of the RL algorithms used to train them. These increases have in
turn made it more difficult for researchers to rapidly prototype new ideas or
reproduce published RL algorithms. To address these concerns this work
describes Acme, a framework for constructing novel RL algorithms that is
specifically designed to enable agents that are built using simple, modular
components that can be used at various scales of execution. While the primary
goal of Acme is to provide a framework for algorithm development, a secondary
goal is to provide simple reference implementations of important or
state-of-the-art algorithms. These implementations serve both as a validation
of our design decisions as well as an important contribution to reproducibility
in RL research. In this work we describe the major design decisions made within
Acme and give further details as to how its components can be used to implement
various algorithms. Our experiments provide baselines for a number of common
and state-of-the-art algorithms as well as showing how these algorithms can be
scaled up for much larger and more complex environments. This highlights one of
the primary advantages of Acme, namely that it can be used to implement large,
distributed RL algorithms that can run at massive scales while still
maintaining the inherent readability of that implementation.
This work presents a second version of the paper which coincides with an
increase in modularity, additional emphasis on offline, imitation and learning
from demonstrations algorithms, as well as various new agents implemented as
part of Acme.
- Abstract(参考訳): 深層強化学習(rl)は、近年、そして画期的な進歩をもたらした。
しかしながら、これらの進歩は、基礎となるアーキテクチャをトレーニングする際のスケールの増大と、トレーニングに使用するRLアルゴリズムの複雑さの増大の両方のコストが伴うことが多い。
これらの増加により、研究者が新しいアイデアを迅速にプロトタイプしたり、公開されたRLアルゴリズムを再現することがより困難になった。
これらの懸念に対処するため、本書ではacmeについて説明する。これは新しいrlアルゴリズムを構築するためのフレームワークで、様々な実行スケールで使用できるシンプルでモジュール化されたコンポーネントを使用して構築されたエージェントを可能にするように設計されている。
acmeの第一の目的はアルゴリズム開発のためのフレームワークを提供することであるが、第二の目的は重要なアルゴリズムや最先端アルゴリズムの簡単な参照実装を提供することである。
これらの実装は、設計決定の検証と、RL研究における再現性への重要な貢献の両方に役立ちます。
本稿では,Acmeにおける設計決定について述べるとともに,そのコンポーネントをさまざまなアルゴリズムの実装に利用する方法について,さらに詳しく述べる。
我々の実験は、多くの一般的な最先端のアルゴリズムのベースラインを提供し、これらのアルゴリズムがより大きく複雑な環境でどのようにスケールアップできるかを示している。
これはAcmeの主な利点の1つを浮き彫りにしている。すなわち、大規模に実行できる大規模な分散RLアルゴリズムの実装に使用することができ、その実装の固有の可読性を維持しながら利用できる。
この論文は、モジュラリティの増大、デモアルゴリズムによるオフライン、模倣、学習の強化、acmeの一部として実装された様々な新しいエージェントと一致した、第2版の論文である。
関連論文リスト
- RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.707460684650584]
大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。
現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。
RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
論文 参考訳(メタデータ) (2024-08-21T07:20:48Z) - Task Agnostic Architecture for Algorithm Induction via Implicit Composition [10.627575117586417]
本研究の目的は,このような統一アーキテクチャの構築を探求することであり,その構築方法に関する理論的枠組みを提案することである。
最近のジェネレーティブAI、特にトランスフォーマーベースのモデルは、幅広い領域のアルゴリズムを構築することができるアーキテクチャとしての可能性を示している。
アルゴリズム合成におけるトランスフォーマーおよび他の手法の現在の機能と限界について検討する。
論文 参考訳(メタデータ) (2024-04-03T04:31:09Z) - A Generalist Neural Algorithmic Learner [18.425083543441776]
我々は、幅広いアルゴリズムを実行することを学習できる単一のグラフニューラルネットワークプロセッサを構築している。
マルチタスク方式でアルゴリズムを効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-09-22T16:41:33Z) - A Pragmatic Look at Deep Imitation Learning [0.3626013617212666]
我々は6つの異なる対向的模倣学習アルゴリズムを再実装する。
広く使われている専門的軌跡データセットで評価する。
GAILは、様々なサンプルサイズにわたって、一貫してよく機能する。
論文 参考訳(メタデータ) (2021-08-04T06:33:10Z) - Identifying Co-Adaptation of Algorithmic and Implementational
Innovations in Deep Reinforcement Learning: A Taxonomy and Case Study of
Inference-based Algorithms [15.338931971492288]
我々は、アルゴリズムの革新と実装決定を分離するために、一連の推論に基づくアクター批判アルゴリズムに焦点を当てる。
実装の詳細がアルゴリズムの選択に一致すると、パフォーマンスが大幅に低下します。
結果は、どの実装の詳細がアルゴリズムと共適応され、共進化しているかを示す。
論文 参考訳(メタデータ) (2021-03-31T17:55:20Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - A Brief Look at Generalization in Visual Meta-Reinforcement Learning [56.50123642237106]
メタ強化学習アルゴリズムの一般化性能を評価する。
これらのアルゴリズムは、困難なタスクで評価された場合、強いオーバーフィッティングを示すことができる。
論文 参考訳(メタデータ) (2020-06-12T15:17:17Z) - Reinforcement Learning with Augmented Data [97.42819506719191]
本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。
本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:35:32Z) - AutoML-Zero: Evolving Machine Learning Algorithms From Scratch [76.83052807776276]
基本数学的操作をビルディングブロックとして使うだけで,完全な機械学習アルゴリズムを自動的に発見できることが示される。
汎用的な検索空間を通じて人間のバイアスを大幅に低減する新しいフレームワークを導入することでこれを実証する。
機械学習アルゴリズムをゼロから発見する上で、これらの予備的な成功は、この分野における有望な新しい方向性を示していると信じている。
論文 参考訳(メタデータ) (2020-03-06T19:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。