論文の概要: Control-Oriented Model-Based Reinforcement Learning with Implicit
Differentiation
- arxiv url: http://arxiv.org/abs/2106.03273v1
- Date: Sun, 6 Jun 2021 23:15:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:49:25.645112
- Title: Control-Oriented Model-Based Reinforcement Learning with Implicit
Differentiation
- Title(参考訳): 命令微分を用いた制御指向モデルベース強化学習
- Authors: Evgenii Nikishin, Romina Abachi, Rishabh Agarwal, Pierre-Luc Bacon
- Abstract要約: そこで本研究では,暗黙の微分を用いたモデル学習において,期待値を直接最適化するエンド・ツー・エンドのアプローチを提案する。
モデル不特定化方式におけるアプローチの利点を、確率に基づく手法と比較した理論的および実証的な証拠を提供する。
- 参考スコア(独自算出の注目度): 11.219641045667055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The shortcomings of maximum likelihood estimation in the context of
model-based reinforcement learning have been highlighted by an increasing
number of papers. When the model class is misspecified or has a limited
representational capacity, model parameters with high likelihood might not
necessarily result in high performance of the agent on a downstream control
task. To alleviate this problem, we propose an end-to-end approach for model
learning which directly optimizes the expected returns using implicit
differentiation. We treat a value function that satisfies the Bellman
optimality operator induced by the model as an implicit function of model
parameters and show how to differentiate the function. We provide theoretical
and empirical evidence highlighting the benefits of our approach in the model
misspecification regime compared to likelihood-based methods.
- Abstract(参考訳): モデルベース強化学習の文脈における最大確率推定の欠点は、多くの論文で強調されている。
モデルクラスが誤って指定されたり、表現能力に制限がある場合、高い可能性のモデルパラメータは、下流制御タスクにおいてエージェントのハイパフォーマンスをもたらすとは限らない。
この問題を緩和するため,本研究では,暗黙差分法を用いて期待値を直接最適化するモデル学習のためのエンドツーエンドアプローチを提案する。
モデルによって誘導されるベルマン最適性作用素をモデルパラメータの暗黙的な関数として満足する値関数を扱い、その関数を区別する方法を示す。
モデルミス特定方式におけるアプローチの利点を,確率に基づく手法と比較した理論的,実証的な証拠を提供する。
関連論文リスト
- When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Deciding What to Model: Value-Equivalent Sampling for Reinforcement
Learning [21.931580762349096]
本稿では,エージェントが真のモデルの代わりにターゲットにできるような,ほぼ等価でロッキーな環境圧縮を計算するアルゴリズムを提案する。
有限水平, エピソディックな逐次決定問題を解くアルゴリズムに対して, 情報理論的, ベイズ的後悔を証明した。
論文 参考訳(メタデータ) (2022-06-04T23:36:38Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Lifted Model Checking for Relational MDPs [12.574454799055026]
pCTL-REBELは、リレーショナルMDP上のpCTL特性を検証するためのリフトモデルチェック手法である。
pCTLモデル検査手法は, 無限領域であっても, リレーショナルMDPに対して決定可能であることを示す。
論文 参考訳(メタデータ) (2021-06-22T13:12:36Z) - On Statistical Efficiency in Learning [37.08000833961712]
モデルフィッティングとモデル複雑性のバランスをとるためのモデル選択の課題に対処する。
モデルの複雑さを順次拡大し、選択安定性を高め、コストを削減するオンラインアルゴリズムを提案します。
実験の結果, 提案手法は予測能力が高く, 計算コストが比較的低いことがわかった。
論文 参考訳(メタデータ) (2020-12-24T16:08:29Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。