論文の概要: Should Models Be Accurate?
- arxiv url: http://arxiv.org/abs/2205.10736v1
- Date: Sun, 22 May 2022 04:23:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 14:12:58.183717
- Title: Should Models Be Accurate?
- Title(参考訳): モデルは正確か?
- Authors: Esra'a Saleh, John D. Martin, Anna Koop, Arash Pourzarabi, Michael
Bowling
- Abstract要約: 予測設定においてダイナスタイルの計画に焦点をあてる。
本研究では,学習者に対して,環境モデリングの精度ではなく,学習者にとって有用性を重視した学習モデルのためのメタ学習アルゴリズムを提案する。
実験の結果,本アルゴリズムは非定常性に関するドメイン固有知識を用いて構築した精度の高いモデルよりも高速な学習を可能にすることがわかった。
- 参考スコア(独自算出の注目度): 14.044354912031864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based Reinforcement Learning (MBRL) holds promise for data-efficiency
by planning with model-generated experience in addition to learning with
experience from the environment. However, in complex or changing environments,
models in MBRL will inevitably be imperfect, and their detrimental effects on
learning can be difficult to mitigate. In this work, we question whether the
objective of these models should be the accurate simulation of environment
dynamics at all. We focus our investigations on Dyna-style planning in a
prediction setting. First, we highlight and support three motivating points: a
perfectly accurate model of environment dynamics is not practically achievable,
is not necessary, and is not always the most useful anyways. Second, we
introduce a meta-learning algorithm for training models with a focus on their
usefulness to the learner instead of their accuracy in modelling the
environment. Our experiments show that in a simple non-stationary environment,
our algorithm enables faster learning than even using an accurate model built
with domain-specific knowledge of the non-stationarity.
- Abstract(参考訳): モデルベース強化学習(MBRL)は、モデル生成経験を計画し、環境からの経験を学習することで、データ効率を約束する。
しかし、複雑な環境や変化する環境では、MBRLのモデルは必然的に不完全であり、学習に対する有害な影響を緩和することは困難である。
本研究では,これらのモデルの目的は,環境力学の正確なシミュレーションであるべきかどうかを問う。
我々は,dyna型計画の予測に焦点をあてた。
まず、我々は3つのモチベーションポイントを強調し、サポートする: 完全に正確な環境力学のモデルが現実的に達成可能ではなく、必要ではない。
第2に,環境のモデル化における精度ではなく,学習者の有用性に着目したモデル学習のためのメタ学習アルゴリズムを提案する。
実験の結果, 単純な非定常環境では, 非定常性に関するドメイン固有知識で構築された精度の高いモデルよりも高速に学習できることがわかった。
関連論文リスト
- HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - Learning Environment Models with Continuous Stochastic Dynamics [0.0]
本研究では,エージェントの制御下での環境行動のオートマトンモデルを学ぶことによって,エージェントが直面する決定に対する洞察を提供することを目的とする。
本研究では,複雑で連続的な力学を持つ環境のモデルを学習できるように,自動学習の能力を高める。
我々は,LunarLander,CartPole,Mountain Car,Acrobotなど,OpenAI GymのRLベンチマーク環境に自動学習フレームワークを適用した。
論文 参考訳(メタデータ) (2023-06-29T12:47:28Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Physics-informed Dyna-Style Model-Based Deep Reinforcement Learning for
Dynamic Control [1.8275108630751844]
本稿では,支配法則が(一部)知られている環境の物理の先行知識を活用することを提案する。
環境の事前情報を取り入れることで、学習したモデルの品質を顕著に改善することができる。
論文 参考訳(メタデータ) (2021-07-31T02:19:36Z) - Model-Advantage Optimization for Model-Based Reinforcement Learning [41.13567626667456]
モデルに基づく強化学習(MBRL)アルゴリズムは、伝統的に環境の正確な力学を学習するために設計されてきた。
モデル学習を最大限に活用するためのモデル学習パラダイムであるバリューアウェアモデル学習は,学習ポリシーの価値関数を通じてモデル学習に通知することを提案する。
本稿では、2つのモデルにまたがるポリシーの絶対的な性能差の上限である新しい値認識目的を提案する。
論文 参考訳(メタデータ) (2021-06-26T20:01:28Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Objective Mismatch in Model-based Reinforcement Learning [14.92062504466269]
モデルベース強化学習(MBRL)は、連続タスクをデータ効率よく学習するための強力なフレームワークであることが示されている。
私たちは、標準のMBRLフレームワークの根本的な問題、すなわち、客観的なミスマッチ問題を特定します。
本稿では,動的モデルトレーニングの再重み付けによるミスマッチ問題を緩和するための初期手法を提案する。
論文 参考訳(メタデータ) (2020-02-11T16:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。