論文の概要: ShinRL: A Library for Evaluating RL Algorithms from Theoretical and
Practical Perspectives
- arxiv url: http://arxiv.org/abs/2112.04123v1
- Date: Wed, 8 Dec 2021 05:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 15:02:59.878397
- Title: ShinRL: A Library for Evaluating RL Algorithms from Theoretical and
Practical Perspectives
- Title(参考訳): ShinRL:理論的・実践的観点からRLアルゴリズムを評価するライブラリ
- Authors: Toshinori Kitamura, Ryo Yonetani
- Abstract要約: 本稿では、強化学習(RL)アルゴリズムを評価するためのオープンソースのライブラリであるShinRLを紹介する。
ShinRLは、RLアルゴリズムの振る舞いを掘り下げるためのメトリクスを計算することができるRL環境インターフェースを提供する。
ShinRLのこれらの2つの特徴を組み合わせることで、深層Q学習の振る舞いをより容易に分析できることを示す。
- 参考スコア(独自算出の注目度): 11.675763847424786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ShinRL, an open-source library specialized for the evaluation of
reinforcement learning (RL) algorithms from both theoretical and practical
perspectives. Existing RL libraries typically allow users to evaluate practical
performances of deep RL algorithms through returns. Nevertheless, these
libraries are not necessarily useful for analyzing if the algorithms perform as
theoretically expected, such as if Q learning really achieves the optimal Q
function. In contrast, ShinRL provides an RL environment interface that can
compute metrics for delving into the behaviors of RL algorithms, such as the
gap between learned and the optimal Q values and state visitation frequencies.
In addition, we introduce a flexible solver interface for evaluating both
theoretically justified algorithms (e.g., dynamic programming and tabular RL)
and practically effective ones (i.e., deep RL, typically with some additional
extensions and regularizations) in a consistent fashion. As a case study, we
show that how combining these two features of ShinRL makes it easier to analyze
the behavior of deep Q learning. Furthermore, we demonstrate that ShinRL can be
used to empirically validate recent theoretical findings such as the effect of
KL regularization for value iteration and for deep Q learning, and the
robustness of entropy-regularized policies to adversarial rewards. The source
code for ShinRL is available on GitHub: https://github.com/omron-sinicx/ShinRL.
- Abstract(参考訳): 本稿では,理論と実用の両方の観点から強化学習(rl)アルゴリズムの評価を専門とするオープンソースライブラリであるshinrlを提案する。
既存のRLライブラリでは、リターンを通じてディープRLアルゴリズムの実用的な性能を評価することができる。
しかしながら、これらのライブラリは、Q学習が真に最適なQ関数を達成するなど、アルゴリズムが理論上期待通りに機能するかどうかを分析するのに必ずしも有用ではない。
対照的に、ShinRLはRL環境インタフェースを提供し、学習されたQ値と最適なQ値と状態訪問頻度のギャップのようなRLアルゴリズムの振る舞いを掘り下げるためのメトリクスを計算できる。
さらに、理論的に正当化されたアルゴリズム(動的プログラミングや表計算RL)と実用的なアルゴリズム(ディープRL、通常いくつかの拡張や正規化を伴う)の両方を一貫した方法で評価するための柔軟なソルバインタフェースを導入する。
ケーススタディとして,shinrlのこれら2つの機能を組み合わせることで,深層q学習の動作解析が容易になることを示す。
さらに,S ShinRLは,KL正則化の効果や深部Q学習,エントロピー規則化ポリシの強靭性など,最近の理論的知見を実証的に検証するためにも有効であることを示す。
ShinRLのソースコードはGitHubで入手できる。
関連論文リスト
- Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Open RL Benchmark: Comprehensive Tracked Experiments for Reinforcement
Learning [41.971465819626005]
我々は、完全に追跡されたRL実験のセットであるOpen RL Benchmarkを紹介する。
Open RL Benchmarkはコミュニティ主導で、誰でもダウンロード、使用、データへのコントリビューションが可能です。
それぞれの実験が正確に再現可能であることを保証するため、特別に注意が払われる。
論文 参考訳(メタデータ) (2024-02-05T14:32:00Z) - The Effective Horizon Explains Deep RL Performance in Stochastic Environments [21.148001945560075]
強化学習(Reinforcement Learning, RL)理論は、最小の複雑性サンプル境界の証明に重点を置いている。
本稿では,RLアルゴリズムSQIRLを提案する。このアルゴリズムはランダムに探索してロールアウトを収集することで,最適に近いポリシーを反復的に学習する。
我々は、SQIRLを利用して、指数的に「効果的な地平線」のルックアヘッドにのみ現れるRLのインスタンス依存のサンプル複雑性境界を導出し、近似に使用されるクラスの複雑性を導出する。
論文 参考訳(メタデータ) (2023-12-13T18:58:56Z) - SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。
SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。