論文の概要: Tonic: A Deep Reinforcement Learning Library for Fast Prototyping and
Benchmarking
- arxiv url: http://arxiv.org/abs/2011.07537v2
- Date: Wed, 19 May 2021 12:28:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 07:31:37.044420
- Title: Tonic: A Deep Reinforcement Learning Library for Fast Prototyping and
Benchmarking
- Title(参考訳): Tonic: 高速プロトタイピングとベンチマークのための深層強化学習ライブラリ
- Authors: Fabio Pardo
- Abstract要約: ディープラーニングは、ここ数年で急速に成長している機械学習の分野のひとつであり、研究を支援するために多くのライブラリがオープンソース化されている。
本稿では、PythonライブラリであるTonicを紹介し、研究者が新しいアイデアを迅速に実装し、その重要性を測ることを可能にする。
- 参考スコア(独自算出の注目度): 4.721069729610892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning has been one of the fastest growing fields of
machine learning over the past years and numerous libraries have been open
sourced to support research. However, most codebases have a steep learning
curve or limited flexibility that do not satisfy a need for fast prototyping in
fundamental research. This paper introduces Tonic, a Python library allowing
researchers to quickly implement new ideas and measure their importance by
providing: 1) general-purpose configurable modules 2) several baseline agents:
A2C, TRPO, PPO, MPO, DDPG, D4PG, TD3 and SAC built with these modules 3)
support for TensorFlow 2 and PyTorch 4) support for continuous-control
environments from OpenAI Gym, DeepMind Control Suite and PyBullet 5) scripts to
experiment in a reproducible way, plot results, and play with trained agents 6)
a benchmark of the provided agents on 70 continuous-control tasks. Evaluation
is performed in fair conditions with identical seeds, training and testing
loops, while sharing general improvements such as non-terminal timeouts and
observation normalization. Finally, to demonstrate how Tonic simplifies
experimentation, a novel agent called TD4 is implemented and evaluated.
- Abstract(参考訳): 深層強化学習は、過去数年間で最も急速に成長している機械学習分野の1つであり、研究を支援するために多くのライブラリがオープンソースとして公開されている。
しかし、ほとんどのコードベースは急勾配の学習曲線や限られた柔軟性を持ち、基礎研究において高速なプロトタイピングの必要性を満たさない。
本稿では,新たなアイデアを迅速に実装し,その重要性を測定するためのpythonライブラリであるtonicを紹介する。
1)汎用構成可能モジュール
2)いくつかのベースラインエージェント(a2c,trpo,ppo,mpo,ddpg,d4pg,td3,sac)
3)TensorFlow 2とPyTorchのサポート
4) OpenAI Gym、DeepMind Control Suite、PyBulletからの継続的制御環境のサポート
5)再現可能な方法で実験するためのスクリプト、プロット結果、訓練されたエージェントとの遊び
6)70の連続制御タスクに対する提供エージェントのベンチマーク。
非終端タイムアウトや観察正規化といった一般的な改善点を共有しながら、同一種、トレーニング、テストループで公正な条件で評価を行う。
最後に、Tonicが実験をいかに単純化するかを示すために、TD4と呼ばれる新しいエージェントを実装し、評価する。
関連論文リスト
- ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z) - Semantic Residual Prompts for Continual Learning [21.986800282078498]
提案手法は,最先端CLアプローチとゼロショットCLIPテストの両方で有意に優れていた。
我々の発見は、バックボーンモデルの事前学習知識に相当な領域ギャップを持つデータセットにも当てはまる。
論文 参考訳(メタデータ) (2024-03-11T16:23:38Z) - PyPOTS: A Python Toolbox for Data Mining on Partially-Observed Time
Series [0.0]
PyPOTSは、部分的に保存された時系列のデータマイニングと分析に特化した、オープンソースのPythonライブラリである。
これは、計算、分類、クラスタリング、予測の4つのタスクに分類される多様なアルゴリズムに容易にアクセスできる。
論文 参考訳(メタデータ) (2023-05-30T07:57:05Z) - SequeL: A Continual Learning Library in PyTorch and JAX [50.33956216274694]
SequeLは継続学習のためのライブラリで、PyTorchとJAXフレームワークの両方をサポートする。
それは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。
私たちはSequeLをオープンソースライブラリとしてリリースし、研究者や開発者が自身の目的で簡単にライブラリを実験し拡張することができます。
論文 参考訳(メタデータ) (2023-04-21T10:00:22Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - PyRelationAL: a python library for active learning research and development [1.0061110876649197]
アクティブラーニング(英: Active Learning, AL)は、反復的かつ経済的にデータを取得する手法の開発に焦点を当てたMLのサブフィールドである。
本稿では,AL研究のためのオープンソースライブラリであるPyRelationALを紹介する。
プールベースのアクティブラーニング戦略を構成するための2段階の設計方法論をベースとしたモジュラーツールキットについて述べる。
論文 参考訳(メタデータ) (2022-05-23T08:21:21Z) - MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation [104.48766162008815]
本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。
マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。
正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
論文 参考訳(メタデータ) (2022-04-27T02:28:12Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - A Large-Scale Study on Unsupervised Spatiotemporal Representation
Learning [60.720251418816815]
本稿では,ビデオからの教師なし表現学習に関する大規模研究を行う。
目的は同じビデオにおける時間的特徴を奨励する。
長時間持続を奨励することは,60秒であっても有効であることがわかった。
論文 参考訳(メタデータ) (2021-04-29T17:59:53Z) - Podracer architectures for scalable Reinforcement Learning [23.369001500657028]
強化学習(RL)エージェントを大規模に訓練する方法はまだ活発な研究分野である。
このレポートでは、TPUはスケーラブルで効率的で再現性の高い方法でRLエージェントをトレーニングするのに特に適しています。
論文 参考訳(メタデータ) (2021-04-13T15:05:35Z) - Reinforcement Learning for Control of Valves [0.0]
本稿では,非線形弁制御のための最適制御戦略として強化学習(RL)を提案する。
PID(proportional-integral-deivative)戦略に対して、統一されたフレームワークを用いて評価される。
論文 参考訳(メタデータ) (2020-12-29T09:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。