論文の概要: High-Accuracy Model-Based Reinforcement Learning, a Survey
- arxiv url: http://arxiv.org/abs/2107.08241v1
- Date: Sat, 17 Jul 2021 14:01:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 15:17:45.155248
- Title: High-Accuracy Model-Based Reinforcement Learning, a Survey
- Title(参考訳): 高精度モデルに基づく強化学習に関する調査
- Authors: Aske Plaat and Walter Kosters and Mike Preuss
- Abstract要約: 深層強化学習は、ゲームプレイとロボティクスにおいて顕著な成功を収めている。
環境サンプルの数を減らすため、モデルに基づく強化学習は環境力学の明示的なモデルを生成する。
これらの手法のいくつかは、低いサンプルの複雑さで高い精度を達成することに成功した。
- 参考スコア(独自算出の注目度): 2.0196229393131726
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep reinforcement learning has shown remarkable success in the past few
years. Highly complex sequential decision making problems from game playing and
robotics have been solved with deep model-free methods. Unfortunately, the
sample complexity of model-free methods is often high. To reduce the number of
environment samples, model-based reinforcement learning creates an explicit
model of the environment dynamics. Achieving high model accuracy is a challenge
in high-dimensional problems. In recent years, a diverse landscape of
model-based methods has been introduced to improve model accuracy, using
methods such as uncertainty modeling, model-predictive control, latent models,
and end-to-end learning and planning. Some of these methods succeed in
achieving high accuracy at low sample complexity, most do so either in a
robotics or in a games context. In this paper, we survey these methods; we
explain in detail how they work and what their strengths and weaknesses are. We
conclude with a research agenda for future work to make the methods more robust
and more widely applicable to other applications.
- Abstract(参考訳): 深層強化学習はここ数年で顕著な成功を収めた。
ゲームプレイやロボティクスによる複雑な逐次決定問題は、ディープモデルフリーで解決されている。
残念ながら、モデルフリーなメソッドのサンプル複雑さは、しばしば高い。
環境サンプル数を減らすため、モデルベース強化学習は環境ダイナミクスの明示的なモデルを作成する。
高いモデル精度を達成することは、高次元問題における課題である。
近年,不確実性モデリング,モデル予測制御,潜在モデル,エンドツーエンドの学習と計画といった手法を用いて,モデルに基づく手法の多様さを導入している。
これらの方法のいくつかは、低いサンプル複雑さで高い精度を達成することに成功している。
本稿では,これらの手法について検討し,その動作方法と,その強みと弱みについて詳細に説明する。
我々は,今後の研究課題として,メソッドをより堅牢かつ広く他のアプリケーションに適用できるようにする。
関連論文リスト
- Learning-based Models for Vulnerability Detection: An Extensive Study [3.1317409221921144]
我々は、最先端の学習ベースアプローチの2つのタイプを広範かつ包括的に調査する。
本稿では,シーケンスベースモデルの優先度と,グラフベースモデルの限定能力について実験的に検証する。
論文 参考訳(メタデータ) (2024-08-14T13:01:30Z) - Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。
モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文 参考訳(メタデータ) (2024-04-10T14:38:58Z) - Fine-Tuning Generative Models as an Inference Method for Robotic Tasks [18.745665662647912]
ロボット作業における観察にニューラルネットワークモデルのサンプル生成を迅速に適応させる方法について検討する。
鍵となるアイデアは、観測された証拠と一致する生成サンプルにそれを適合させることで、モデルを素早く微調整することである。
本手法は自己回帰モデルと変分自己エンコーダの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-19T16:11:49Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z) - Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:33:11Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Deep Model-Based Reinforcement Learning for High-Dimensional Problems, a
Survey [1.2031796234206134]
モデルに基づく強化学習は、環境サンプルの必要性を減らすために、環境力学の明示的なモデルを生成する。
深層モデルに基づく手法の課題は、低いサンプルの複雑さを維持しながら高い予測力を達成することである。
本稿では, 与えられた遷移を明示的に計画すること, 学習した遷移を明示的に計画すること, 計画と遷移の両方をエンドツーエンドで学習することの3つのアプローチに基づく分類法を提案する。
論文 参考訳(メタデータ) (2020-08-11T08:49:04Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Hybrid modeling: Applications in real-time diagnosis [64.5040763067757]
我々は、機械学習にインスパイアされたモデルと物理モデルを組み合わせた、新しいハイブリッドモデリングアプローチの概要を述べる。
このようなモデルをリアルタイム診断に利用しています。
論文 参考訳(メタデータ) (2020-03-04T00:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。