論文の概要: MBB: Model-Based Baseline for Global Guidance of Model-Free
Reinforcement Learning via Lower-Dimensional Solutions
- arxiv url: http://arxiv.org/abs/2011.02073v4
- Date: Sat, 23 Oct 2021 00:28:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:07:14.163928
- Title: MBB: Model-Based Baseline for Global Guidance of Model-Free
Reinforcement Learning via Lower-Dimensional Solutions
- Title(参考訳): mbb:低次元解によるモデルフリー強化学習のグローバルガイダンスのためのモデルベースライン
- Authors: Xubo Lyu, Site Li, Seth Siriya, Ye Pu, Mo Chen
- Abstract要約: ポストディム状態空間を用いた複雑なロボットタスクの解法を示す。
まず、問題のlo-dimバージョンに対するlo-dim値関数を計算する。
次に、ロディム値関数をベースライン関数として、モデルフリーRLプロセスのウォームスタートを行う。
- 参考スコア(独自算出の注目度): 8.6216807235051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One spectrum on which robotic control paradigms lie is the degree in which a
model of the environment is involved, from methods that are completely
model-free such as model-free RL, to methods that require a known model such as
optimal control, with other methods such as model-based RL somewhere in the
middle. On one end of the spectrum, model-free RL can learn control policies
for high-dimensional (hi-dim), complex robotic tasks through trial-and-error
without knowledge of a model of the environment, but tends to require a large
amount of data. On the other end, "classical methods" such as optimal control
generate solutions without collecting data, but assume that an accurate model
of the system and environment is known and are mostly limited to problems with
low-dimensional (lo-dim) state spaces. In this paper, we bring the two ends of
the spectrum together. Although models of hi-dim systems and environments may
not exist, lo-dim approximations of these systems and environments are widely
available, especially in robotics. Therefore, we propose to solve hi-dim,
complex robotic tasks in two stages. First, assuming a coarse model of the
hi-dim system, we compute a lo-dim value function for the lo-dim version of the
problem using classical methods (eg. value iteration and optimal control).
Then, the lo-dim value function is used as a baseline function to warm-start
the model-free RL process that learns hi-dim policies. The lo-dim value
function provides global guidance for model-free RL, alleviating the data
inefficiency of model-free RL. We demonstrate our approach on two robot
learning tasks with hi-dim state spaces and observe significant improvement in
policy performance and learning efficiency. We also give an empirical analysis
of our method with a third task.
- Abstract(参考訳): ロボット制御のパラダイムの1つのスペクトルは、モデルフリーrlのような完全にモデルフリーな手法から、最適制御のような既知のモデルを必要とする方法、そしてモデルベースのrlのような他の方法まで、環境のモデルが関与する度合いである。
モデルのないRLは、環境のモデルを知ることなく、試行錯誤によって高次元(ハイディム)複雑なロボットタスクの制御ポリシーを学ぶことができるが、大量のデータを必要とする傾向がある。
一方、最適制御のような「古典的手法」は、データを集めることなく解を生成するが、システムと環境の正確なモデルが知られ、主に低次元(lo-dim)状態空間の問題に限定されていると仮定する。
本稿では、スペクトルの2つの端をまとめる。
ハイディムシステムと環境のモデルは存在しないかもしれないが、特にロボット工学において、これらのシステムと環境のlo-dim近似が広く利用可能である。
そこで本研究では,2段階の複雑なロボット課題を解決することを提案する。
まず,ハイディムシステムの粗いモデルを仮定して,古典的な手法(値反復や最適制御など)を用いて問題のlo-dimバージョンに対するlo-dim値関数を計算する。
次に、ロディム値関数をベースライン関数として使用し、ハイディムポリシーを学ぶモデルフリーなRLプロセスのウォームスタートを行う。
lo-dim値関数は、モデルフリーrlのデータ非効率を緩和するモデルフリーrlのグローバルガイダンスを提供する。
我々は,ハイダイム状態空間を持つ2つのロボット学習タスクに対するアプローチを実証し,政策性能と学習効率の大幅な改善を観察する。
また,第3の課題により,提案手法を実証的に分析した。
関連論文リスト
- MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Pretty darn good control: when are approximate solutions better than
approximate models [0.0]
DRLアルゴリズムは,漁業における非線形3変数モデルにおける解の近似に成功していることを示す。
DRLで得られた政策は, 一定の死亡率の政策よりも収益性が高く, 持続性も高いことを示す。
論文 参考訳(メタデータ) (2023-08-25T19:58:17Z) - Learning Environment Models with Continuous Stochastic Dynamics [0.0]
本研究では,エージェントの制御下での環境行動のオートマトンモデルを学ぶことによって,エージェントが直面する決定に対する洞察を提供することを目的とする。
本研究では,複雑で連続的な力学を持つ環境のモデルを学習できるように,自動学習の能力を高める。
我々は,LunarLander,CartPole,Mountain Car,Acrobotなど,OpenAI GymのRLベンチマーク環境に自動学習フレームワークを適用した。
論文 参考訳(メタデータ) (2023-06-29T12:47:28Z) - Efficient Preference-Based Reinforcement Learning Using Learned Dynamics
Models [13.077993395762185]
優先度に基づく強化学習(PbRL)は、ロボットが個人の好みに基づいてタスクを実行することを学習できるようにする。
PbRLを実行する際に学習力学モデルを使用することの利点と課題について検討する。
論文 参考訳(メタデータ) (2023-01-11T22:22:54Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - CostNet: An End-to-End Framework for Goal-Directed Reinforcement
Learning [9.432068833600884]
強化学習(Reinforcement Learning, RL)は、環境における報酬の最大化を目指すエージェントに関する一般的なフレームワークである。
モデルベースとモデルフリー強化学習の2つのアプローチがあり、いくつかの分野において具体的な結果を示している。
本稿ではマルコフ決定過程における2つの状態間の距離を予測するための新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:16:14Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow [14.422129911404472]
Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。
我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-26T11:32:27Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。