Fugu-MT 論文翻訳(概要): Finite-Time Error Analysis of Online Model-Based Q-Learning with a Relaxed Sampling Model

論文の概要: Finite-Time Error Analysis of Online Model-Based Q-Learning with a Relaxed Sampling Model

arxiv url: http://arxiv.org/abs/2402.11877v1
Date: Mon, 19 Feb 2024 06:33:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 18:03:16.558027
Title: Finite-Time Error Analysis of Online Model-Based Q-Learning with a Relaxed Sampling Model
Title（参考訳）: リラクシドサンプリングモデルを用いたオンラインQ-Learningの有限時間誤差解析
Authors: Han-Dong Lim, HyeAnn Lee, Donghwan Lee
Abstract要約: Q$-learningは、モデルなしの設定において強力なアルゴリズムであることが証明されている。モデルベースのフレームワークへの$Q$-learningの拡張については、まだ明らかになっていない。
参考スコア（独自算出の注目度）: 6.663174194579773
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning has witnessed significant advancements, particularly with the emergence of model-based approaches. Among these, $Q$-learning has proven to be a powerful algorithm in model-free settings. However, the extension of $Q$-learning to a model-based framework remains relatively unexplored. In this paper, we delve into the sample complexity of $Q$-learning when integrated with a model-based approach. Through theoretical analyses and empirical evaluations, we seek to elucidate the conditions under which model-based $Q$-learning excels in terms of sample efficiency compared to its model-free counterpart.
Abstract（参考訳）: 強化学習は、特にモデルベースのアプローチの出現とともに、大きな進歩をみせた。このうち、$q$-learningはモデルフリー設定の強力なアルゴリズムであることが証明されている。しかし、モデルベースのフレームワークへの$q$-learningの拡張は、比較的未調査のままである。本稿では,モデルベースアプローチと統合した場合のq$-learningのサンプル複雑さについて考察する。理論解析と経験的評価を通じて,モデルベースである$q$-learningが,モデルフリーのそれと比較してサンプル効率において優れている条件を明らかにする。

関連論文リスト

On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。本研究は,専門家の選択に重要な意味を持つ。
論文参考訳（メタデータ） (2024-02-05T12:31:18Z)
On the Sample Complexity of Vanilla Model-Based Offline Reinforcement Learning with Dependent Samples [32.707730631343416]
オフライン強化学習(オフラインRL)は、以前に収集したサンプルのみを用いて学習を行う問題を考える。モデルベースオフラインRLでは、学習者は経験的遷移に応じて構築されたモデルを用いて推定(または最適化)を行う。本研究では,バニラモデルに基づくオフラインRLのサンプル複雑性を無限水平ディスカウント・リワード設定における依存サンプルを用いて解析する。
論文参考訳（メタデータ） (2023-03-07T22:39:23Z)
Model-agnostic multi-objective approach for the evolutionary discovery of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文参考訳（メタデータ） (2021-07-07T11:17:09Z)
Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow [14.422129911404472]
Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
論文参考訳（メタデータ） (2021-03-26T11:32:27Z)
Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文参考訳（メタデータ） (2021-02-07T17:56:50Z)
Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文参考訳（メタデータ） (2020-10-27T17:54:12Z)
On the model-based stochastic value gradient for continuous reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文参考訳（メタデータ） (2020-08-28T17:58:29Z)
Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文参考訳（メタデータ） (2020-07-11T19:44:09Z)
Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-16T15:10:28Z)
PAC Bounds for Imitation and Model-based Batch Learning of Contextual Markov Decision Processes [31.83144400718369]
本稿では,コンテキスト記述子を用いたマルチタスク強化学習のバッチ化の問題点について考察する。直接政策学習(DPL)、専門家の軌道から学習する模倣学習に基づくアプローチ、モデルに基づく学習という2つの一般的な学習アルゴリズムについて研究する。
論文参考訳（メタデータ） (2020-06-11T11:57:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。