論文の概要: Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.10119v2
- Date: Sun, 11 Jun 2023 19:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 01:31:07.489856
- Title: Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning
- Title(参考訳): 生涯強化学習におけるスケーラブル・ロバスト計画のための最小値等価部分モデル
- Authors: Safa Alver, Doina Precup
- Abstract要約: モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
- 参考スコア(独自算出の注目度): 56.50123642237106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning models of the environment from pure interaction is often considered
an essential component of building lifelong reinforcement learning agents.
However, the common practice in model-based reinforcement learning is to learn
models that model every aspect of the agent's environment, regardless of
whether they are important in coming up with optimal decisions or not. In this
paper, we argue that such models are not particularly well-suited for
performing scalable and robust planning in lifelong reinforcement learning
scenarios and we propose new kinds of models that only model the relevant
aspects of the environment, which we call "minimal value-equivalent partial
models". After providing a formal definition for these models, we provide
theoretical results demonstrating the scalability advantages of performing
planning with such models and then perform experiments to empirically
illustrate our theoretical results. Then, we provide some useful heuristics on
how to learn these kinds of models with deep learning architectures and
empirically demonstrate that models learned in such a way can allow for
performing planning that is robust to distribution shifts and compounding model
errors. Overall, both our theoretical and empirical results suggest that
minimal value-equivalent partial models can provide significant benefits to
performing scalable and robust planning in lifelong reinforcement learning
scenarios.
- Abstract(参考訳): 純粋な相互作用から環境の学習モデルは、生涯にわたる強化学習エージェントを構築する上で不可欠な要素であると考えられている。
しかし、モデルに基づく強化学習の一般的な実践は、最適な決定を下す上で重要であるかどうかに関わらず、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
本稿では,このようなモデルが,生涯強化学習シナリオにおいてスケーラブルで堅牢な計画実行にはあまり適していないこと,環境の関連する側面のみをモデル化する新たなモデルを提案すること,これを「最小値等価部分モデル」と呼ぶ。
これらのモデルに対して形式的な定義を提供した後、そのようなモデルで計画を行うことのスケーラビリティの利点を示す理論的結果を提供し、理論結果を実証的に示す実験を行う。
次に,これらのモデルをどのようにディープラーニングアーキテクチャで学習するかに関する有用なヒューリスティックスを提供し,分散シフトや複合モデルエラーに頑健な計画を実現するために,このような方法で学習したモデルを実証的に示す。
全体として、理論的および実証的な結果から、生涯強化学習シナリオにおいて、最小の値等価部分モデルがスケーラブルで堅牢な計画を実行する上で大きなメリットをもたらすことを示唆しています。
関連論文リスト
- Scaling Laws Across Model Architectures: A Comparative Analysis of Dense and MoE Models in Large Language Models [34.79589443380606]
大規模言語モデル(LLM)のスケーリングは、モデルトレーニングとデプロイメントの効率性と効率性にとって重要な研究領域である。
本研究は,Dense Models と MoE Model のスケーリング法則の伝達性と相違について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:21:56Z) - Fine-tuning large language models for domain adaptation: Exploration of training strategies, scaling, model merging and synergistic capabilities [4.389938747401259]
本研究は、材料科学や工学などの分野における大規模言語モデル(LLM)に対する微調整戦略の効果について考察する。
複数の微調整モデルの融合は、親モデルの個々の貢献を超越した能力の出現につながる可能性がある。
論文 参考訳(メタデータ) (2024-09-05T11:49:53Z) - Learning-based Models for Vulnerability Detection: An Extensive Study [3.1317409221921144]
我々は、最先端の学習ベースアプローチの2つのタイプを広範かつ包括的に調査する。
本稿では,シーケンスベースモデルの優先度と,グラフベースモデルの限定能力について実験的に検証する。
論文 参考訳(メタデータ) (2024-08-14T13:01:30Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。
しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。
本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T15:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。