論文の概要: Maximum Entropy Model Correction in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.17855v1
- Date: Wed, 29 Nov 2023 18:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 20:21:39.615613
- Title: Maximum Entropy Model Correction in Reinforcement Learning
- Title(参考訳): 強化学習における最大エントロピーモデル補正
- Authors: Amin Rakhsha, Mete Kemertas, Mohammad Ghavamzadeh, Amir-massoud
Farahmand
- Abstract要約: 本稿では,強化学習における近似モデルを用いた計画手法の提案と理論的解析を行う。
モデル補正値イテレーション(MoCoVI)アルゴリズムとそのサンプルベース変種MoCoDynaを紹介する。
従来のモデルベースアルゴリズムとは異なり、MoCoVIとMoCoDynaは近似モデルを有効に利用し、依然として正しい値関数に収束する。
- 参考スコア(独自算出の注目度): 29.577846986302518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose and theoretically analyze an approach for planning with an
approximate model in reinforcement learning that can reduce the adverse impact
of model error. If the model is accurate enough, it accelerates the convergence
to the true value function too. One of its key components is the MaxEnt Model
Correction (MoCo) procedure that corrects the model's next-state distributions
based on a Maximum Entropy density estimation formulation. Based on MoCo, we
introduce the Model Correcting Value Iteration (MoCoVI) algorithm, and its
sampled-based variant MoCoDyna. We show that MoCoVI and MoCoDyna's convergence
can be much faster than the conventional model-free algorithms. Unlike
traditional model-based algorithms, MoCoVI and MoCoDyna effectively utilize an
approximate model and still converge to the correct value function.
- Abstract(参考訳): 本稿では,モデル誤りの悪影響を低減できる強化学習における近似モデルによる計画手法を提案し,理論的に分析する。
モデルが十分正確であれば、真の値関数への収束も加速する。
その重要な構成要素の1つは、最大エントロピー密度推定式に基づいてモデルの次状態分布を補正するMaxEnt Model Correction (MoCo) 手順である。
モデル補正値イテレーション(MoCoVI)アルゴリズムとそのサンプルベース変種であるMoCoDynaを紹介する。
我々は,MoCoVIとMoCoDynaの収束が従来のモデルフリーアルゴリズムよりもはるかに高速であることを示す。
従来のモデルベースアルゴリズムとは異なり、MoCoVIとMoCoDynaは近似モデルを有効に利用し、依然として正しい値関数に収束する。
関連論文リスト
- Data-driven Nonlinear Model Reduction using Koopman Theory: Integrated
Control Form and NMPC Case Study [56.283944756315066]
そこで本研究では,遅延座標符号化と全状態復号化を組み合わせた汎用モデル構造を提案し,Koopmanモデリングと状態推定を統合した。
ケーススタディでは,本手法が正確な制御モデルを提供し,高純度極低温蒸留塔のリアルタイム非線形予測制御を可能にすることを実証している。
論文 参考訳(メタデータ) (2024-01-09T11:54:54Z) - Is Model Ensemble Necessary? Model-based RL via a Single Model with
Lipschitz Regularized Value Function [23.255250192599327]
確率力学モデルアンサンブルは、既存のモデルに基づく強化学習法で広く使われている。
値函数に対して、リプシッツ条件が強くなるほど、真の力学によって誘導されるベルマン作用素の間のギャップは小さくなる。
論文 参考訳(メタデータ) (2023-02-02T17:27:16Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [55.28436972267793]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。
本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。
提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-10-19T14:19:42Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Maximum Entropy Model Rollouts: Fast Model Based Policy Optimization
without Compounding Errors [10.906666680425754]
我々は、最大エントロピーモデルロールアウト(MEMR)と呼ばれるダイナスタイルモデルに基づく強化学習アルゴリズムを提案する。
複雑なエラーをなくすために、我々はモデルを使って単一ステップのロールアウトを生成する。
論文 参考訳(メタデータ) (2020-06-08T21:38:15Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。