論文の概要: CARL: A Benchmark for Contextual and Adaptive Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.02102v1
- Date: Tue, 5 Oct 2021 15:04:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:06:19.527226
- Title: CARL: A Benchmark for Contextual and Adaptive Reinforcement Learning
- Title(参考訳): carl: コンテキストと適応的な強化学習のためのベンチマーク
- Authors: Carolin Benjamins, Theresa Eimer, Frederik Schubert, Andr\'e
Biedenkapp, Bodo Rosenhahn, Frank Hutter, Marius Lindauer
- Abstract要約: 本稿では、文脈RL問題に拡張されたよく知られたRL環境の集合であるCARLについて述べる。
政策学習から状態の表現学習と文脈を分離することで、より一般化が促進されるという最初の証拠を提供する。
- 参考スコア(独自算出の注目度): 45.52724876199729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Reinforcement Learning has made great strides towards solving ever more
complicated tasks, many algorithms are still brittle to even slight changes in
their environment. This is a limiting factor for real-world applications of RL.
Although the research community continuously aims at improving both robustness
and generalization of RL algorithms, unfortunately it still lacks an
open-source set of well-defined benchmark problems based on a consistent
theoretical framework, which allows comparing different approaches in a fair,
reliable and reproducibleway. To fill this gap, we propose CARL, a collection
of well-known RL environments extended to contextual RL problems to study
generalization. We show the urgent need of such benchmarks by demonstrating
that even simple toy environments become challenging for commonly used
approaches if different contextual instances of this task have to be
considered. Furthermore, CARL allows us to provide first evidence that
disentangling representation learning of the states from the policy learning
with the context facilitates better generalization. By providing variations of
diverse benchmarks from classic control, physical simulations, games and a
real-world application of RNA design, CARL will allow the community to derive
many more such insights on a solid empirical foundation.
- Abstract(参考訳): 強化学習は、これまで以上に複雑なタスクを解決する上で大きな進歩を遂げてきたが、多くのアルゴリズムは、環境のわずかな変化でさえも脆弱である。
これは実世界のRL応用の制限因子である。
研究コミュニティは、RLアルゴリズムの堅牢性と一般化の両方の改善を継続的に目標としているが、残念なことに、一貫性のある理論的なフレームワークに基づいた、明確なベンチマーク問題のオープンソースセットはいまだに欠けている。
このギャップを埋めるために、一般化を研究するためにコンテキストRL問題に拡張されたよく知られたRL環境の集合であるCARLを提案する。
我々は,このタスクの異なるコンテキストインスタンスを考慮しなければならない場合,汎用的なアプローチでは,単純な玩具環境でさえも困難になることを示すことで,このようなベンチマークを緊急に必要とすることを示す。
さらに、CARLは、政策学習から状態の表現学習を分離することで、より一般化しやすいことを示す最初の証拠を提供することができる。
古典的な制御、物理シミュレーション、ゲーム、RNA設計の現実的な応用から様々なベンチマークを提供することで、CARLはコミュニティがしっかりとした経験的基礎に関する多くの知見を導き出すことができる。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Towards an Information Theoretic Framework of Context-Based Offline
Meta-Reinforcement Learning [50.976910714839065]
コンテクストベースのOMRL(COMRL)は,効率的なタスク表現を前提としたユニバーサルポリシーの学習を目的としている。
我々はCOMRLアルゴリズムが,タスク変数$boldsymbolM$と,その潜在表現$boldsymbolZ$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
理論的な洞察と情報ボトルネックの原理に基づいて、我々はUNICORNと呼ばれる新しいアルゴリズムに到達し、RLベンチマークの幅広い範囲にわたって顕著な一般化を示す。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - Blending Imitation and Reinforcement Learning for Robust Policy
Improvement [16.588397203235296]
イミテーション学習(Imitation Learning, IL)は、オークルを用いてサンプル効率を向上させる。
RPIはILの強みを生かし、オラクルクエリを使って探索を容易にする。
RPIは多様なブラックボックスのオラクルから学習し、改善することができる。
論文 参考訳(メタデータ) (2023-10-03T01:55:54Z) - ContainerGym: A Real-World Reinforcement Learning Benchmark for Resource
Allocation [1.6058099298620425]
ContainerGymは、実世界の産業資源割り当てタスクにインスパイアされた強化学習のためのベンチマークである。
提案したベンチマークは、実世界のシーケンシャルな意思決定問題でよく遭遇する課題をエンコードする。
様々な難易度の問題をインスタンス化するように構成することもできる。
論文 参考訳(メタデータ) (2023-07-06T13:44:29Z) - RL4CO: a Unified Reinforcement Learning for Combinatorial Optimization
Library [32.67950169615487]
RL4CO(Reinforcement Learning for Combinatorial Optimization)ライブラリを紹介する。
私たちは、モジュール化や構成管理など、最先端のソフトウェアとベストプラクティスを実装に採用しています。
ゼロショット性能,一般化,適応性の異なる評価スキームを用いたベースラインRLソルバのベンチマークを行った。
論文 参考訳(メタデータ) (2023-06-29T16:57:22Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Incorporating Relational Background Knowledge into Reinforcement
Learning via Differentiable Inductive Logic Programming [8.122270502556374]
微分帰納的論理プログラミング(ILP)に基づく新しい深層強化学習(RRL)を提案する。
本稿では,BoxWorld,GridWorldなどの環境と,Solt-of-CLEVRデータセットのリレーショナル推論を用いた新しいRRLフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2020-03-23T16:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。