論文の概要: SaLinA: Sequential Learning of Agents
- arxiv url: http://arxiv.org/abs/2110.07910v1
- Date: Fri, 15 Oct 2021 07:50:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 00:54:55.972301
- Title: SaLinA: Sequential Learning of Agents
- Title(参考訳): SaLinA: エージェントのシーケンス学習
- Authors: Ludovic Denoyer, Alfredo de la Fuente, Song Duong, Jean-Baptiste Gaya,
Pierre-Alexandre Kamienny, Daniel H. Thompson
- Abstract要約: SaLinAは、強化学習アルゴリズムを含む複雑な逐次学習モデルの実装を容易にするライブラリである。
SALINAでコード化されたアルゴリズムは、PyTorchユーザによって数分で理解でき、簡単に修正できる。
- 参考スコア(独自算出の注目度): 13.822224899460656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: SaLinA is a simple library that makes implementing complex sequential
learning models easy, including reinforcement learning algorithms. It is built
as an extension of PyTorch: algorithms coded with \SALINA{} can be understood
in few minutes by PyTorch users and modified easily. Moreover, SaLinA naturally
works with multiple CPUs and GPUs at train and test time, thus being a good fit
for the large-scale training use cases. In comparison to existing RL libraries,
SaLinA has a very low adoption cost and capture a large variety of settings
(model-based RL, batch RL, hierarchical RL, multi-agent RL, etc.). But SaLinA
does not only target RL practitioners, it aims at providing sequential learning
capabilities to any deep learning programmer.
- Abstract(参考訳): SaLinAは、強化学習アルゴリズムを含む複雑な逐次学習モデルの実装を容易にするシンプルなライブラリである。
これはPyTorchの拡張として構築されている: \SALINA{}でコード化されたアルゴリズムは、PyTorchユーザによって数分で理解でき、容易に修正できる。
さらに、SaLinAはトレーニングとテストの時間に複数のCPUとGPUで動作するため、大規模なトレーニングユースケースに適しています。
既存のRLライブラリと比較して、SaLinAは採用コストが非常に低く、さまざまな設定(モデルベースRL、バッチRL、階層RL、マルチエージェントRLなど)をキャプチャします。
しかしSaLinAは、RLの実践者だけでなく、あらゆるディープラーニングプログラマにシーケンシャルな学習機能を提供することを目指している。
関連論文リスト
- ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。
SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z) - ShinRL: A Library for Evaluating RL Algorithms from Theoretical and
Practical Perspectives [11.675763847424786]
本稿では、強化学習(RL)アルゴリズムを評価するためのオープンソースのライブラリであるShinRLを紹介する。
ShinRLは、RLアルゴリズムの振る舞いを掘り下げるためのメトリクスを計算することができるRL環境インターフェースを提供する。
ShinRLのこれらの2つの特徴を組み合わせることで、深層Q学習の振る舞いをより容易に分析できることを示す。
論文 参考訳(メタデータ) (2021-12-08T05:34:46Z) - d3rlpy: An Offline Deep Reinforcement Learning Library [0.0]
我々は、Python用のオープンソースのオフライン深層学習(RL)ライブラリであるd3rlpyを紹介した。
d3rlpyは、オフラインのディープRLアルゴリズムと、ユーザフレンドリーなAPIによるオンラインアルゴリズムをサポートする。
論文 参考訳(メタデータ) (2021-11-06T03:09:39Z) - Solo-learn: A Library of Self-supervised Methods for Visual
Representation Learning [83.02597612195966]
solo-learnは視覚表現学習のための自己指導型のメソッドのライブラリである。
Pythonで実装され、PytorchとPytorch Lightningを使用して、このライブラリは研究と業界のニーズの両方に適合する。
論文 参考訳(メタデータ) (2021-08-03T22:19:55Z) - TeachMyAgent: a Benchmark for Automatic Curriculum Learning in Deep RL [23.719833581321033]
複数のタスクに一般化できる自律エージェントのトレーニングは、Deep Reinforcement Learning (DRL)研究の重要なターゲットです。
DRLアルゴリズムの改善と並行して、ACL(Automatic Curriculum Learning)は、進化する能力にタスク選択を適用することで、教師アルゴリズムがDRLエージェントをより効率的に訓練する方法を研究する。
DRLエージェントを比較するために複数の標準ベンチマークが存在するが、現在ACLアルゴリズムにはそのようなものは存在しない。
論文 参考訳(メタデータ) (2021-03-17T17:59:22Z) - MushroomRL: Simplifying Reinforcement Learning Research [60.70556446270147]
MushroomRLはオープンソースのPythonライブラリで、強化学習(RL)実験の実装と実行を簡単にするために開発された。
他の利用可能なライブラリと比較して、MushroomRLは、新しいRL方法論の実装とテストの労力を最小限に抑えるために、包括的で柔軟なフレームワークを提供することを目的として作られた。
論文 参考訳(メタデータ) (2020-01-04T17:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。