論文の概要: SLM Lab: A Comprehensive Benchmark and Modular Software Framework for
Reproducible Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/1912.12482v1
- Date: Sat, 28 Dec 2019 16:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 12:37:25.986882
- Title: SLM Lab: A Comprehensive Benchmark and Modular Software Framework for
Reproducible Deep Reinforcement Learning
- Title(参考訳): SLM Lab: 再現可能な深層強化学習のための総合ベンチマークとモジュール型ソフトウェアフレームワーク
- Authors: Keng Wah Loon, Laura Graesser, Milan Cvitkovic
- Abstract要約: 再現性強化学習(RL)研究のためのソフトウェアフレームワークであるSLM Labを紹介する。
SLM Labは多くのRLアルゴリズムを実装し、同期および非同期並列実験実行を提供する。
本研究では、SLM Labの設計選択を提示し、それを総合的な単一コードベースRLアルゴリズムベンチマークを作成するために利用する。
- 参考スコア(独自算出の注目度): 8.830479021890575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SLM Lab, a software framework for reproducible reinforcement
learning (RL) research. SLM Lab implements a number of popular RL algorithms,
provides synchronous and asynchronous parallel experiment execution,
hyperparameter search, and result analysis. RL algorithms in SLM Lab are
implemented in a modular way such that differences in algorithm performance can
be confidently ascribed to differences between algorithms, not between
implementations. In this work we present the design choices behind SLM Lab and
use it to produce a comprehensive single-codebase RL algorithm benchmark. In
addition, as a consequence of SLM Lab's modular design, we introduce and
evaluate a discrete-action variant of the Soft Actor-Critic algorithm (Haarnoja
et al., 2018) and a hybrid synchronous/asynchronous training method for RL
agents.
- Abstract(参考訳): 再現性強化学習(RL)研究のためのソフトウェアフレームワークであるSLM Labを紹介する。
SLM Labは多くのRLアルゴリズムを実装し、同期および非同期並列実験の実行、ハイパーパラメータサーチ、結果解析を提供する。
SLM LabのRLアルゴリズムはモジュール方式で実装されており、アルゴリズム性能の違いは実装間ではなく、アルゴリズム間の差異に確実に対応できる。
本研究では、SLM Labの設計選択を提示し、それを総合的な単一コードベースRLアルゴリズムベンチマークを作成する。
また,slm labのモジュラー設計の結果,ソフト・アクタ・クリティック・アルゴリズム(haarnoja et al., 2018)の離散動作型とrlエージェントのハイブリッド同期/非同期学習法を紹介し評価した。
関連論文リスト
- CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - On the Design and Analysis of LLM-Based Algorithms [74.7126776018275]
大規模言語モデル(LLM)はアルゴリズムのサブルーチンとして使用される。
LLMは素晴らしい経験的成功を収めた。
提案フレームワークは,LLMアルゴリズムの進歩を約束する。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z) - Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL) with Ensemble Inference Method [0.0]
本稿では,HAAMRL(Huristic ensemble-based Action Masking Reinforcement Learning)と呼ばれる新しい強化学習手法を提案する。
提案手法は, 複雑な製造プロセスの最適化において, 優れた性能と性能の一般化を示す。
論文 参考訳(メタデータ) (2024-03-21T03:42:39Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Karolos: An Open-Source Reinforcement Learning Framework for Robot-Task
Environments [0.3867363075280544]
強化学習(RL)研究において、シミュレーションはアルゴリズム間のベンチマークを可能にする。
本稿では,ロボット応用のためのフレームワークであるKarolosを紹介する。
コードはオープンソースでGitHubに公開されており、ロボット工学におけるRLアプリケーションの研究を促進することを目的としている。
論文 参考訳(メタデータ) (2022-12-01T23:14:02Z) - Ensemble Reinforcement Learning in Continuous Spaces -- A Hierarchical
Multi-Step Approach for Policy Training [4.982806898121435]
本稿では,革新的な多段階統合手法に基づいて,基礎学習者のアンサンブルを訓練する手法を提案する。
本手法は,学習者間コラボレーションを効果的に促進するアンサンブルDRLのための新しい階層学習アルゴリズムの開発を可能にする。
また、このアルゴリズムは複数のベンチマークRL問題に対していくつかの最先端のDRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-09-29T00:42:44Z) - Acceleration of Subspace Learning Machine via Particle Swarm
Optimization and Parallel Processing [23.33955958124822]
サブスペース・ラーニング・マシン(SLM)は、一般的な分類および回帰タスクにおいて高い性能を提供するために提案されている。
性能改善は高い計算複雑性を犠牲にして達成される。
実験結果から, 加速SLM法はトレーニング時間で577の高速化率を達成することがわかった。
論文 参考訳(メタデータ) (2022-08-15T06:33:15Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z) - Joint Deep Reinforcement Learning and Unfolding: Beam Selection and
Precoding for mmWave Multiuser MIMO with Lens Arrays [54.43962058166702]
離散レンズアレイを用いたミリ波マルチユーザマルチインプット多重出力(MU-MIMO)システムに注目が集まっている。
本研究では、DLA を用いた mmWave MU-MIMO システムのビームプリコーディング行列の共同設計について検討する。
論文 参考訳(メタデータ) (2021-01-05T03:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。