論文の概要: A Unified View on Solving Objective Mismatch in Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.06253v2
- Date: Sat, 6 Apr 2024 20:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 04:28:07.306082
- Title: A Unified View on Solving Objective Mismatch in Model-Based Reinforcement Learning
- Title(参考訳): モデルに基づく強化学習における客観的ミスマッチの解法に関する統一的視点
- Authors: Ran Wei, Nathan Lambert, Anthony McDonald, Alfredo Garcia, Roberto Calandra,
- Abstract要約: モデルベース強化学習(MBRL)は、エージェントをよりサンプリング効率、適応性、説明しやすいものにすることを目的としている。
モデルをどのように学習するかは、まだ未解決の問題である。
- 参考スコア(独自算出の注目度): 10.154341066746975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based Reinforcement Learning (MBRL) aims to make agents more sample-efficient, adaptive, and explainable by learning an explicit model of the environment. While the capabilities of MBRL agents have significantly improved in recent years, how to best learn the model is still an unresolved question. The majority of MBRL algorithms aim at training the model to make accurate predictions about the environment and subsequently using the model to determine the most rewarding actions. However, recent research has shown that model predictive accuracy is often not correlated with action quality, tracing the root cause to the objective mismatch between accurate dynamics model learning and policy optimization of rewards. A number of interrelated solution categories to the objective mismatch problem have emerged as MBRL continues to mature as a research area. In this work, we provide an in-depth survey of these solution categories and propose a taxonomy to foster future research.
- Abstract(参考訳): モデルベース強化学習(MBRL)は、エージェントが環境の明示的なモデルを学ぶことで、よりサンプリング効率、適応性、説明しやすくすることを目的としている。
MBRLエージェントの能力は近年大幅に改善されているが、モデルをどのように学習するかはまだ未解決の問題である。
MBRLアルゴリズムの大半は、環境に関する正確な予測を行うためにモデルをトレーニングすることを目的としており、その後、最も報われる行動を決定するためにモデルを使用する。
しかし,近年の研究では,モデル予測精度が行動品質と相関しない場合が多く,その根本原因を正確な力学モデル学習と報酬の政策最適化の客観的なミスマッチに追従することが示されている。
MBRLが研究領域として成熟を続けるにつれ、客観的なミスマッチ問題に対する多くの相互関連ソリューションカテゴリが出現している。
本研究では,これらの解のカテゴリについて詳細な調査を行い,今後の研究を促進するための分類法を提案する。
関連論文リスト
- Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Model-Advantage Optimization for Model-Based Reinforcement Learning [41.13567626667456]
モデルに基づく強化学習(MBRL)アルゴリズムは、伝統的に環境の正確な力学を学習するために設計されてきた。
モデル学習を最大限に活用するためのモデル学習パラダイムであるバリューアウェアモデル学習は,学習ポリシーの価値関数を通じてモデル学習に通知することを提案する。
本稿では、2つのモデルにまたがるポリシーの絶対的な性能差の上限である新しい値認識目的を提案する。
論文 参考訳(メタデータ) (2021-06-26T20:01:28Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Objective Mismatch in Model-based Reinforcement Learning [14.92062504466269]
モデルベース強化学習(MBRL)は、連続タスクをデータ効率よく学習するための強力なフレームワークであることが示されている。
私たちは、標準のMBRLフレームワークの根本的な問題、すなわち、客観的なミスマッチ問題を特定します。
本稿では,動的モデルトレーニングの再重み付けによるミスマッチ問題を緩和するための初期手法を提案する。
論文 参考訳(メタデータ) (2020-02-11T16:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。