論文の概要: Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow
- arxiv url: http://arxiv.org/abs/2103.14407v1
- Date: Fri, 26 Mar 2021 11:32:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:37:12.063205
- Title: Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow
- Title(参考訳): Bellman:TensorFlowのモデルベース強化学習用ツールボックス
- Authors: John McLeod, Hrvoje Stojic, Vincent Adam, Dongho Kim, Jordi Grau-Moya,
Peter Vrancx, Felix Leibfried
- Abstract要約: Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。
我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
- 参考スコア(独自算出の注目度): 14.422129911404472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past decade, model-free reinforcement learning (RL) has provided
solutions to challenging domains such as robotics. Model-based RL shows the
prospect of being more sample-efficient than model-free methods in terms of
agent-environment interactions, because the model enables to extrapolate to
unseen situations. In the more recent past, model-based methods have shown
superior results compared to model-free methods in some challenging domains
with non-linear state transitions. At the same time, it has become apparent
that RL is not market-ready yet and that many real-world applications are going
to require model-based approaches, because model-free methods are too
sample-inefficient and show poor performance in early stages of training. The
latter is particularly important in industry, e.g. in production systems that
directly impact a company's revenue. This demonstrates the necessity for a
toolbox to push the boundaries for model-based RL. While there is a plethora of
toolboxes for model-free RL, model-based RL has received little attention in
terms of toolbox development. Bellman aims to fill this gap and introduces the
first thoroughly designed and tested model-based RL toolbox using
state-of-the-art software engineering practices. Our modular approach enables
to combine a wide range of environment models with generic model-based agent
classes that recover state-of-the-art algorithms. We also provide an experiment
harness to compare both model-free and model-based agents in a systematic
fashion w.r.t. user-defined evaluation metrics (e.g. cumulative reward). This
paves the way for new research directions, e.g. investigating uncertainty-aware
environment models that are not necessarily neural-network-based, or developing
algorithms to solve industrially-motivated benchmarks that share
characteristics with real-world problems.
- Abstract(参考訳): 過去10年間、モデルフリー強化学習(rl)はロボティクスのような挑戦的な領域に対する解決策を提供してきた。
モデルベースのrlは、エージェント-環境相互作用の観点からは、モデルフリーの手法よりもサンプル効率が良い可能性を示している。
より最近のモデルベース手法は、非線形状態遷移を持ついくつかの挑戦領域において、モデルフリー手法と比較して優れた結果を示している。
同時に、rlはまだ市場対応ができていないこと、そして多くの実世界のアプリケーションがモデルベースのアプローチを必要とすることが明らかになった。
後者は特に産業において重要である。
会社の収益に直接影響を与える生産システムです
これは、モデルベースのRLのバウンダリをプッシュするツールボックスの必要性を示している。
モデルフリーRLには多数のツールボックスがあるが、モデルベースRLはツールボックス開発に関してほとんど注目されていない。
Bellman氏はこのギャップを埋めることを目指しており、最先端のソフトウェアエンジニアリングプラクティスを使用して、モデルベースのRLツールボックスを設計し、テストした初めての例を紹介している。
我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
また,モデルフリーエージェントとモデルベースエージェントを系統的手法で比較するための実験ハーネスも提供する。
ユーザ定義評価指標(例)
累積報酬)。
これは、例えば、新しい研究方向への道を開く。
必ずしもニューラルネットベースではない不確実性を認識した環境モデルの調査や、実世界の問題と特性を共有する産業動機付けベンチマークを解くアルゴリズムの開発。
関連論文リスト
- Offline Model-Based Reinforcement Learning with Anti-Exploration [0.0]
モースモデルに基づくオフラインRL(MoMo)を提案する。
MoMoは、価値過大評価に対抗するために、アンチ探索ボーナスを使用してオフラインで強化学習を行う。
後者は、テストされたD4RLデータセットの大部分で、モデルベースとモデルフリーのベースラインを上回っている。
論文 参考訳(メタデータ) (2024-08-20T10:29:21Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Modeling Choice via Self-Attention [8.394221523847325]
注意に基づく選択モデルはHalo Multinomial Logit(Halo-MNL)モデルの低最適一般化であることを示す。
また、実データから選択を推定するための最初の現実的な尺度を確立し、既存のモデルの評価を行う。
論文 参考訳(メタデータ) (2023-11-11T11:13:07Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - VAE-LIME: Deep Generative Model Based Approach for Local Data-Driven
Model Interpretability Applied to the Ironmaking Industry [70.10343492784465]
モデル予測だけでなく、その解釈可能性も、プロセスエンジニアに公開する必要があります。
LIMEに基づくモデルに依存しない局所的解釈可能性ソリューションが最近出現し、元の手法が改良された。
本稿では, 燃焼炉で生成する高温金属の温度を推定するデータ駆動型モデルの局所的解釈可能性に関する新しいアプローチ, VAE-LIMEを提案する。
論文 参考訳(メタデータ) (2020-07-15T07:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。