論文の概要: Diminishing Return of Value Expansion Methods in Model-Based
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.03955v1
- Date: Tue, 7 Mar 2023 15:01:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 14:55:40.584705
- Title: Diminishing Return of Value Expansion Methods in Model-Based
Reinforcement Learning
- Title(参考訳): モデルベース強化学習における価値拡大手法のリターンの低下
- Authors: Daniel Palenicek, Michael Lutter, Joao Carvalho, Jan Peters
- Abstract要約: 学習された力学モデルを改善することで、どれだけのサンプル効率が得られるかを検討する。
地平線が長くなると試料効率は向上するが, 追加膨張段ごとに改善率が低下する。
モデル精度が向上することは有益であるが, 実験結果から, 完璧なモデルであっても, 精度の低いサンプル効率は得られないことが示唆された。
- 参考スコア(独自算出の注目度): 31.633431504806563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning is one approach to increase sample
efficiency. However, the accuracy of the dynamics model and the resulting
compounding error over modelled trajectories are commonly regarded as key
limitations. A natural question to ask is: How much more sample efficiency can
be gained by improving the learned dynamics models? Our paper empirically
answers this question for the class of model-based value expansion methods in
continuous control problems. Value expansion methods should benefit from
increased model accuracy by enabling longer rollout horizons and better value
function approximations. Our empirical study, which leverages oracle dynamics
models to avoid compounding model errors, shows that (1) longer horizons
increase sample efficiency, but the gain in improvement decreases with each
additional expansion step, and (2) the increased model accuracy only marginally
increases the sample efficiency compared to learned models with identical
horizons. Therefore, longer horizons and increased model accuracy yield
diminishing returns in terms of sample efficiency. These improvements in sample
efficiency are particularly disappointing when compared to model-free value
expansion methods. Even though they introduce no computational overhead, we
find their performance to be on-par with model-based value expansion methods.
Therefore, we conclude that the limitation of model-based value expansion
methods is not the model accuracy of the learned models. While higher model
accuracy is beneficial, our experiments show that even a perfect model will not
provide an un-rivalled sample efficiency but that the bottleneck lies
elsewhere.
- Abstract(参考訳): モデルに基づく強化学習は、サンプル効率を高めるための1つのアプローチである。
しかしながら、ダイナミクスモデルの精度と、モデル化された軌道上の複合誤差は、一般的に鍵となる制限と見なされる。
学習したダイナミクスモデルを改善することで、どの程度のサンプル効率が得られるのか?
本論文は,連続制御問題におけるモデルに基づく価値拡大手法のクラスについて実証的に答える。
値拡大法は、より長いロールアウト地平線とより良い値関数近似を可能にすることで、モデル精度の向上の恩恵を受けるべきである。
oracle dynamics modelをモデルエラーの複合化を避けるために活用した実証研究では、(1)長いホライズンがサンプル効率を増加させるが、追加の展開ステップごとに改善が減少し、(2)モデル精度が増加すると、同じホライズンを持つ学習されたモデルと比較して、サンプル効率がわずかに増加することが示されている。
したがって、より長い地平線とモデル精度の向上はサンプル効率の面でのリターンを減少させる。
これらのサンプル効率の改善は、モデルフリー値展開法と比較して特に残念である。
計算オーバーヘッドは発生しないが、モデルベースの値拡張法と同等のパフォーマンスであることが分かっています。
したがって, モデルベース価値展開法の限界は, 学習モデルのモデル精度ではないと結論づけた。
モデル精度が向上することは有益であるが,本実験では,完全モデルであっても非分散サンプル効率は得られないが,ボトルネックは別の場所にあることを示した。
関連論文リスト
- Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Deep learning for model correction of dynamical systems with data scarcity [0.0]
本稿では,少ない高忠実度データセットのみを用いて,既存の力学系モデルを修正するためのディープラーニングフレームワークを提案する。
我々は、高忠実度データの量が非常に小さく、既存のデータ駆動モデリング手法のほとんどを適用できない場合に焦点を当てる。
論文 参考訳(メタデータ) (2024-10-23T14:33:11Z) - How to Fine-tune the Model: Unified Model Shift and Model Bias Policy
Optimization [13.440645736306267]
本稿ではモデルに基づく強化学習のためのアルゴリズムを開発する。
モデルシフトとモデルバイアスを統一し、微調整プロセスを定式化する。
これは、いくつかの挑戦的なベンチマークタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-09-22T07:27:32Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning [25.85044477227461]
このベースラインに対するアウト・オブ・ディストリビューションデータより正確であるモデルは「有効ロバスト性」を示す。
より大規模なデータセットで事前トレーニングされたモデルは、収束時に消滅するトレーニング中に効果的な堅牢性を示す。
本稿では, 最先端システムに効率的なロバスト性を拡張し, 最先端モデルの分布外精度を向上させるためのいくつかの戦略について論じる。
論文 参考訳(メタデータ) (2021-06-30T06:21:42Z) - Distilling Interpretable Models into Human-Readable Code [71.11328360614479]
人間可読性は機械学習モデル解釈可能性にとって重要で望ましい標準である。
従来の方法を用いて解釈可能なモデルを訓練し,それを簡潔で可読なコードに抽出する。
本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-01-21T01:46:36Z) - Bidirectional Model-based Policy Optimization [30.732572976324516]
モデルに基づく強化学習アプローチは、計画と意思決定をサポートするためにフォワードダイナミクスモデルを活用する。
本稿では,前方モデル予測における精度への依存を減らすために,後方ダイナミクスモデルを構築することを提案する。
本稿では,二方向性モデルベースポリシー (BMPO) と呼ばれる新しい手法を開発し,前向きモデルと後向きモデルの両方を用いて,政策最適化のための短い分岐ロールアウトを生成する。
論文 参考訳(メタデータ) (2020-07-04T03:34:09Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。