論文の概要: Objective Mismatch in Model-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2002.04523v3
- Date: Mon, 19 Apr 2021 03:02:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 01:54:26.669120
- Title: Objective Mismatch in Model-based Reinforcement Learning
- Title(参考訳): モデルベース強化学習における客観的ミスマッチ
- Authors: Nathan Lambert, Brandon Amos, Omry Yadan, Roberto Calandra
- Abstract要約: モデルベース強化学習(MBRL)は、連続タスクをデータ効率よく学習するための強力なフレームワークであることが示されている。
私たちは、標準のMBRLフレームワークの根本的な問題、すなわち、客観的なミスマッチ問題を特定します。
本稿では,動的モデルトレーニングの再重み付けによるミスマッチ問題を緩和するための初期手法を提案する。
- 参考スコア(独自算出の注目度): 14.92062504466269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (MBRL) has been shown to be a powerful
framework for data-efficiently learning control of continuous tasks. Recent
work in MBRL has mostly focused on using more advanced function approximators
and planning schemes, with little development of the general framework. In this
paper, we identify a fundamental issue of the standard MBRL framework -- what
we call the objective mismatch issue. Objective mismatch arises when one
objective is optimized in the hope that a second, often uncorrelated, metric
will also be optimized. In the context of MBRL, we characterize the objective
mismatch between training the forward dynamics model w.r.t.~the likelihood of
the one-step ahead prediction, and the overall goal of improving performance on
a downstream control task. For example, this issue can emerge with the
realization that dynamics models effective for a specific task do not
necessarily need to be globally accurate, and vice versa globally accurate
models might not be sufficiently accurate locally to obtain good control
performance on a specific task. In our experiments, we study this objective
mismatch issue and demonstrate that the likelihood of one-step ahead
predictions is not always correlated with control performance. This observation
highlights a critical limitation in the MBRL framework which will require
further research to be fully understood and addressed. We propose an initial
method to mitigate the mismatch issue by re-weighting dynamics model training.
Building on it, we conclude with a discussion about other potential directions
of research for addressing this issue.
- Abstract(参考訳): モデルベース強化学習(MBRL)は連続タスクをデータ効率よく学習するための強力なフレームワークである。
MBRLにおける最近の研究は主に、より高度な関数近似器と計画スキームの使用に焦点を当てており、一般的なフレームワークの開発はほとんど行われていない。
本稿では,標準MBRLフレームワークの基本的問題として,客観的ミスマッチ問題(Objective mismatch problem)と呼ぶものを特定する。
客観的なミスマッチは、1つの目的が最適化され、2番目の、しばしば相関しないメトリクスも最適化されることを期待して発生する。
MBRL の文脈では、フォワードダイナミクスモデル w.r.t. のトレーニングと1ステップ先進予測の可能性、下流制御タスクの性能向上という全体的な目標との客観的なミスマッチを特徴付ける。
例えば、この問題は、特定のタスクに有効なダイナミクスモデルが必ずしもグローバルに正確である必要はなく、またその逆のグローバルに正確なモデルは、特定のタスクで適切な制御性能を得るために、局所的に十分な精度を得られない、という認識から生じうる。
本実験では,この客観的ミスマッチ問題について検討し,一段階予測の可能性が必ずしも制御性能と相関しないことを示す。
この観察は、MBRLフレームワークの限界を強調しており、さらなる研究が完全に理解され、対処される必要がある。
本稿では,動的モデルトレーニングの再重み付けによるミスマッチ問題を緩和するための初期手法を提案する。
その上で、この問題に取り組むための研究の他の潜在的方向性に関する議論を締めくくった。
関連論文リスト
- A Unified View on Solving Objective Mismatch in Model-Based Reinforcement Learning [10.154341066746975]
モデルベース強化学習(MBRL)は、エージェントをよりサンプリング効率、適応性、説明しやすいものにすることを目的としている。
モデルをどのように学習するかは、まだ未解決の問題である。
論文 参考訳(メタデータ) (2023-10-10T01:58:38Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - Model-Advantage Optimization for Model-Based Reinforcement Learning [41.13567626667456]
モデルに基づく強化学習(MBRL)アルゴリズムは、伝統的に環境の正確な力学を学習するために設計されてきた。
モデル学習を最大限に活用するためのモデル学習パラダイムであるバリューアウェアモデル学習は,学習ポリシーの価値関数を通じてモデル学習に通知することを提案する。
本稿では、2つのモデルにまたがるポリシーの絶対的な性能差の上限である新しい値認識目的を提案する。
論文 参考訳(メタデータ) (2021-06-26T20:01:28Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。