論文の概要: On the Sample Complexity of Vanilla Model-Based Offline Reinforcement
Learning with Dependent Samples
- arxiv url: http://arxiv.org/abs/2303.04268v1
- Date: Tue, 7 Mar 2023 22:39:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 15:47:33.426388
- Title: On the Sample Complexity of Vanilla Model-Based Offline Reinforcement
Learning with Dependent Samples
- Title(参考訳): 依存サンプルを用いたバニラモデルに基づくオフライン強化学習のサンプル複雑性について
- Authors: Mustafa O. Karabag, Ufuk Topcu
- Abstract要約: オフライン強化学習(オフラインRL)は、以前に収集したサンプルのみを用いて学習を行う問題を考える。
モデルベースオフラインRLでは、学習者は経験的遷移に応じて構築されたモデルを用いて推定(または最適化)を行う。
本研究では,バニラモデルに基づくオフラインRLのサンプル複雑性を無限水平ディスカウント・リワード設定における依存サンプルを用いて解析する。
- 参考スコア(独自算出の注目度): 32.707730631343416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (offline RL) considers problems where learning
is performed using only previously collected samples and is helpful for the
settings in which collecting new data is costly or risky. In model-based
offline RL, the learner performs estimation (or optimization) using a model
constructed according to the empirical transition frequencies. We analyze the
sample complexity of vanilla model-based offline RL with dependent samples in
the infinite-horizon discounted-reward setting. In our setting, the samples
obey the dynamics of the Markov decision process and, consequently, may have
interdependencies. Under no assumption of independent samples, we provide a
high-probability, polynomial sample complexity bound for vanilla model-based
off-policy evaluation that requires partial or uniform coverage. We extend this
result to the off-policy optimization under uniform coverage. As a comparison
to the model-based approach, we analyze the sample complexity of off-policy
evaluation with vanilla importance sampling in the infinite-horizon setting.
Finally, we provide an estimator that outperforms the sample-mean estimator for
almost deterministic dynamics that are prevalent in reinforcement learning.
- Abstract(参考訳): オフライン強化学習(オフラインRL)は、以前に収集したサンプルのみを用いて学習を行う場合の問題を考え、新しいデータを集めるのにコストがかかるかリスクが高い設定に役立ちます。
モデルベースオフラインRLでは、学習者は経験的遷移周波数に基づいて構築されたモデルを用いて推定(または最適化)を行う。
無限ホライゾン値引き設定におけるバニラモデルに基づくオフラインrlのサンプル複雑性について解析した。
この設定では、サンプルはマルコフ決定プロセスのダイナミクスに従い、その結果、相互依存性を持つ可能性がある。
独立サンプルの仮定なしでは、バニラモデルに基づくオフポリシー評価のための高確率多項式サンプル複雑性を提供し、部分的あるいは均一なカバレッジを必要とする。
我々は、この結果を一様カバレッジ下でのオフポリシー最適化に拡張する。
モデルに基づくアプローチと比較し,無限ホライゾン設定におけるバニラ重要度サンプリングを用いたオフポリシー評価のサンプル複雑性を分析した。
最後に,強化学習でよく見られるほぼ決定論的ダイナミクスに対して,サンプル平均推定値より優れている推定値を提案する。
関連論文リスト
- A Diffusion Model Framework for Unsupervised Neural Combinatorial Optimization [7.378582040635655]
現在のディープラーニングアプローチは、正確なサンプル確率を生み出す生成モデルに依存している。
この研究は、この制限を解除し、高度に表現力のある潜在変数モデルを採用する可能性を開放する手法を導入する。
我々は,データフリーなコンビネーション最適化におけるアプローチを実験的に検証し,幅広いベンチマーク問題に対して新しい最先端の手法を実現することを実証した。
論文 参考訳(メタデータ) (2024-06-03T17:55:02Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Finite-Time Error Analysis of Online Model-Based Q-Learning with a
Relaxed Sampling Model [6.663174194579773]
Q$-learningは、モデルなしの設定において強力なアルゴリズムであることが証明されている。
モデルベースのフレームワークへの$Q$-learningの拡張については、まだ明らかになっていない。
論文 参考訳(メタデータ) (2024-02-19T06:33:51Z) - Low-variance estimation in the Plackett-Luce model via quasi-Monte Carlo
sampling [58.14878401145309]
PLモデルにおいて,より標本効率の高い予測値を生成するための新しい手法を開発した。
Amazon MusicのリアルなレコメンデーションデータとYahooの学習からランクへの挑戦を理論的にも実証的にも使用しています。
論文 参考訳(メタデータ) (2022-05-12T11:15:47Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z) - Exponential Reduction in Sample Complexity with Learning of Ising Model
Dynamics [14.704630929165274]
動的プロセスによって生成された相関サンプルからバイナリグラフィカルモデルを再構成する問題について検討する。
相互作用スクリーニングの目的と条件付き可能性損失に基づく2つの推定器のサンプル複雑性を解析した。
論文 参考訳(メタデータ) (2021-04-02T11:44:13Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - PAC Bounds for Imitation and Model-based Batch Learning of Contextual
Markov Decision Processes [31.83144400718369]
本稿では,コンテキスト記述子を用いたマルチタスク強化学習のバッチ化の問題点について考察する。
直接政策学習(DPL)、専門家の軌道から学習する模倣学習に基づくアプローチ、モデルに基づく学習という2つの一般的な学習アルゴリズムについて研究する。
論文 参考訳(メタデータ) (2020-06-11T11:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。