論文の概要: ContainerGym: A Real-World Reinforcement Learning Benchmark for Resource
Allocation
- arxiv url: http://arxiv.org/abs/2307.02991v1
- Date: Thu, 6 Jul 2023 13:44:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 13:55:35.348025
- Title: ContainerGym: A Real-World Reinforcement Learning Benchmark for Resource
Allocation
- Title(参考訳): ContainerGym: リソース割り当てのための実世界の強化学習ベンチマーク
- Authors: Abhijeet Pendyala, Justin Dettmer, Tobias Glasmachers, Asma Atamna
- Abstract要約: ContainerGymは、実世界の産業資源割り当てタスクにインスパイアされた強化学習のためのベンチマークである。
提案したベンチマークは、実世界のシーケンシャルな意思決定問題でよく遭遇する課題をエンコードする。
様々な難易度の問題をインスタンス化するように構成することもできる。
- 参考スコア(独自算出の注目度): 1.6058099298620425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ContainerGym, a benchmark for reinforcement learning inspired by a
real-world industrial resource allocation task. The proposed benchmark encodes
a range of challenges commonly encountered in real-world sequential decision
making problems, such as uncertainty. It can be configured to instantiate
problems of varying degrees of difficulty, e.g., in terms of variable
dimensionality. Our benchmark differs from other reinforcement learning
benchmarks, including the ones aiming to encode real-world difficulties, in
that it is directly derived from a real-world industrial problem, which
underwent minimal simplification and streamlining. It is sufficiently versatile
to evaluate reinforcement learning algorithms on any real-world problem that
fits our resource allocation framework. We provide results of standard baseline
methods. Going beyond the usual training reward curves, our results and the
statistical tools used to interpret them allow to highlight interesting
limitations of well-known deep reinforcement learning algorithms, namely PPO,
TRPO and DQN.
- Abstract(参考訳): 本稿では,実世界の産業資源配分タスクに触発された強化学習のベンチマークであるContainerGymを紹介する。
提案したベンチマークは、不確実性など、現実のシーケンシャルな意思決定問題でよく遭遇する様々な課題をエンコードする。
これは、例えば、可変次元の観点で、様々な難易度の問題をインスタンス化するように構成することができる。
我々のベンチマークは他の強化学習ベンチマークと異なり、実世界の難易度をエンコードすることを目的としており、それは最小限の単純化と合理化を行った実世界の産業問題から直接導かれるものである。
リソース割り当てフレームワークに適合する実世界の問題に対して、強化学習アルゴリズムを評価するのに十分便利です。
標準ベースライン方式の結果を提供する。
通常のトレーニング報酬曲線を超えて、我々の結果とそれらの解釈に使用される統計ツールは、よく知られた深層強化学習アルゴリズム(PPO、TRPO、DQN)の興味深い制限を強調します。
関連論文リスト
- Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHF [82.73541793388]
本稿では, ペナルティ定式化のレンズによる二レベルRL問題の解法として, 第一原理のアルゴリズムフレームワークを提案する。
本稿では,問題景観とそのペナルティに基づく勾配(政治)アルゴリズムについて理論的研究を行う。
シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。
論文 参考訳(メタデータ) (2024-02-10T04:54:15Z) - A General Framework for Learning from Weak Supervision [93.89870459388185]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。
GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。
また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-02T21:48:50Z) - Benchmarking Constraint Inference in Inverse Reinforcement Learning [19.314352936252444]
多くの実世界の問題において、専門家が従う制約は、RLエージェントに数学的に、未知に指定することがしばしば困難である。
本稿では,ロボット制御と自律運転という2つの主要なアプリケーション領域の文脈において,CIRLベンチマークを構築する。
CIRLアルゴリズムのパフォーマンスを再現するための情報を含むこのベンチマークは、https://github.com/Guiliang/CIRL-benchmarks-publicで公開されている。
論文 参考訳(メタデータ) (2022-06-20T09:22:20Z) - Hierarchical Reinforcement Learning with Timed Subgoals [11.758625350317274]
Timed Subgoals (HiTS) を用いた階層型強化学習の導入
HiTSはエージェントがどの目標状態に到達すべきか、いつ到達するかを指定することで、そのタイミングを動的環境に適応させることを可能にする。
実験により,既存の最先端のサブゴールベースHRL法が安定した解を学習できない場合,本手法はサンプル効率のよい学習が可能であることが確認された。
論文 参考訳(メタデータ) (2021-12-06T15:11:19Z) - CARL: A Benchmark for Contextual and Adaptive Reinforcement Learning [45.52724876199729]
本稿では、文脈RL問題に拡張されたよく知られたRL環境の集合であるCARLについて述べる。
政策学習から状態の表現学習と文脈を分離することで、より一般化が促進されるという最初の証拠を提供する。
論文 参考訳(メタデータ) (2021-10-05T15:04:01Z) - No-Regret Reinforcement Learning with Heavy-Tailed Rewards [11.715649997214125]
重み付き報酬の学習の難しさが遷移確率の学習の難しさを左右することを示した。
我々のアルゴリズムは自然に深層強化学習アプリケーションに一般化する。
全てのアルゴリズムは、合成MDPと標準RLベンチマークの両方でベースラインを上回ります。
論文 参考訳(メタデータ) (2021-02-25T10:25:57Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。