論文の概要: Deciding What to Model: Value-Equivalent Sampling for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2206.02072v1
- Date: Sat, 4 Jun 2022 23:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 18:30:01.872518
- Title: Deciding What to Model: Value-Equivalent Sampling for Reinforcement
Learning
- Title(参考訳): モデルを決定する: 強化学習のための価値等価サンプリング
- Authors: Dilip Arumugam and Benjamin Van Roy
- Abstract要約: 本稿では,エージェントが真のモデルの代わりにターゲットにできるような,ほぼ等価でロッキーな環境圧縮を計算するアルゴリズムを提案する。
有限水平, エピソディックな逐次決定問題を解くアルゴリズムに対して, 情報理論的, ベイズ的後悔を証明した。
- 参考スコア(独自算出の注目度): 21.931580762349096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quintessential model-based reinforcement-learning agent iteratively
refines its estimates or prior beliefs about the true underlying model of the
environment. Recent empirical successes in model-based reinforcement learning
with function approximation, however, eschew the true model in favor of a
surrogate that, while ignoring various facets of the environment, still
facilitates effective planning over behaviors. Recently formalized as the value
equivalence principle, this algorithmic technique is perhaps unavoidable as
real-world reinforcement learning demands consideration of a simple,
computationally-bounded agent interacting with an overwhelmingly complex
environment, whose underlying dynamics likely exceed the agent's capacity for
representation. In this work, we consider the scenario where agent limitations
may entirely preclude identifying an exactly value-equivalent model,
immediately giving rise to a trade-off between identifying a model that is
simple enough to learn while only incurring bounded sub-optimality. To address
this problem, we introduce an algorithm that, using rate-distortion theory,
iteratively computes an approximately-value-equivalent, lossy compression of
the environment which an agent may feasibly target in lieu of the true model.
We prove an information-theoretic, Bayesian regret bound for our algorithm that
holds for any finite-horizon, episodic sequential decision-making problem.
Crucially, our regret bound can be expressed in one of two possible forms,
providing a performance guarantee for finding either the simplest model that
achieves a desired sub-optimality gap or, alternatively, the best model given a
limit on agent capacity.
- Abstract(参考訳): quintessential modelベースの強化学習エージェントは、環境の真の基礎となるモデルに関する見積もりや事前の信念を反復的に洗練します。
機能近似を用いたモデルベース強化学習における近年の実証的成功は、環境の様々な側面を無視しつつも、効果的な行動計画を促進するサロゲートを好んで、真のモデルを考案している。
最近、値同値原理として定式化されたこのアルゴリズム手法は、非常に複雑な環境と相互作用する単純で計算力に縛られたエージェントを考慮に入れる実世界の強化学習要求として、おそらく避けられない。
本研究では,エージェントの制約が,真に等価なモデルを特定することを完全に妨げる可能性があり,有界な部分最適性のみを伴いながら,学習に十分簡単なモデルを特定することのトレードオフを即座に生じさせるシナリオについて考察する。
この問題に対処するために,エージェントが真モデルの代わりにターゲットにできる環境のほぼ等価で損失の多い圧縮を,レート歪み理論を用いて反復的に計算するアルゴリズムを導入する。
有限水平, エピソディックな逐次決定問題を解くアルゴリズムに対して, 情報理論的, ベイズ的後悔を証明した。
重要なことに、我々の後悔の限界は2つの可能な形式のうちの1つで表され、所望の準最適ギャップを達成する最も単純なモデルを見つけるための性能保証を提供する。
関連論文リスト
- When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - General multi-fidelity surrogate models: Framework and active learning
strategies for efficient rare event simulation [1.708673732699217]
複雑な現実世界のシステムの失敗の確率を推定することは、しばしば違法に高価である。
本稿では,頑健な多要素代理モデリング戦略を提案する。
高忠実度モデル呼び出しの数を劇的に削減しながら、非常に正確であることが示されている。
論文 参考訳(メタデータ) (2022-12-07T00:03:21Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Between Rate-Distortion Theory & Value Equivalence in Model-Based
Reinforcement Learning [21.931580762349096]
本稿では,エージェントが相変わらず最適動作を回復する環境の単純で有用な近似を合成するアルゴリズムを提案する。
我々は、この損失のある環境圧縮問題の情報理論的性質を認識し、この速度歪み理論の適切なツールを用いて、値等価性がトラクタビリティを他の難解なシーケンシャルな意思決定問題にもたらすことができるかを数学的に正確にする。
論文 参考訳(メタデータ) (2022-06-04T17:09:46Z) - Control-Oriented Model-Based Reinforcement Learning with Implicit
Differentiation [11.219641045667055]
そこで本研究では,暗黙の微分を用いたモデル学習において,期待値を直接最適化するエンド・ツー・エンドのアプローチを提案する。
モデル不特定化方式におけるアプローチの利点を、確率に基づく手法と比較した理論的および実証的な証拠を提供する。
論文 参考訳(メタデータ) (2021-06-06T23:15:49Z) - A bandit-learning approach to multifidelity approximation [7.960229223744695]
マルチファイデリティ近似は、科学計算とシミュレーションにおいて重要な技術である。
異なる忠実度のデータを利用して正確な推定を行うためのバンディットラーニング手法を紹介します。
論文 参考訳(メタデータ) (2021-03-29T05:29:35Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。
本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。
提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-10-19T14:19:42Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。