論文の概要: Oracle Inequalities for Model Selection in Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2211.02016v1
- Date: Thu, 3 Nov 2022 17:32:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 12:34:13.999246
- Title: Oracle Inequalities for Model Selection in Offline Reinforcement
Learning
- Title(参考訳): オフライン強化学習におけるモデル選択の不等式
- Authors: Jonathan N. Lee, George Tucker, Ofir Nachum, Bo Dai, Emma Brunskill
- Abstract要約: 本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
- 参考スコア(独自算出の注目度): 105.74139523696284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In offline reinforcement learning (RL), a learner leverages prior logged data
to learn a good policy without interacting with the environment. A major
challenge in applying such methods in practice is the lack of both
theoretically principled and practical tools for model selection and
evaluation. To address this, we study the problem of model selection in offline
RL with value function approximation. The learner is given a nested sequence of
model classes to minimize squared Bellman error and must select among these to
achieve a balance between approximation and estimation error of the classes. We
propose the first model selection algorithm for offline RL that achieves
minimax rate-optimal oracle inequalities up to logarithmic factors. The
algorithm, ModBE, takes as input a collection of candidate model classes and a
generic base offline RL algorithm. By successively eliminating model classes
using a novel one-sided generalization test, ModBE returns a policy with regret
scaling with the complexity of the minimally complete model class. In addition
to its theoretical guarantees, it is conceptually simple and computationally
efficient, amounting to solving a series of square loss regression problems and
then comparing relative square loss between classes. We conclude with several
numerical simulations showing it is capable of reliably selecting a good model
class.
- Abstract(参考訳): オフライン強化学習(rl)では、学習者は事前のログデータを活用して、環境と対話することなく良い方針を学ぶ。
このような手法を実際に適用する上での大きな課題は、モデル選択と評価のための理論的および実践的なツールの欠如である。
そこで本研究では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
学習者は、正方形ベルマン誤差を最小限に抑えるためにモデルクラスのネストシーケンスを与えられ、クラスの近似と推定誤差のバランスをとらなければならない。
対数係数まで最小値の最適オラクル不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
このアルゴリズムであるModBEは、候補モデルクラスと汎用ベースオフラインRLアルゴリズムの集合として入力される。
ModBEは、新しい一方的な一般化テストを用いてモデルクラスを逐次削除することにより、最小限の完全モデルクラスの複雑さを伴って、残念なスケーリングを伴うポリシーを返す。
理論的な保証に加えて、概念的には単純で計算効率が良く、一連の二乗損失回帰問題を解き、クラス間の相対的二乗損失を比較する。
結論として,良質なモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
関連論文リスト
- LoRA Unlearns More and Retains More (Student Abstract) [0.0]
PruneLoRAは、モデルに低ランクの更新を適用することで、大規模なパラメータ更新の必要性を減らす。
そこで我々はLoRAを利用してプルーンドモデルのパラメータのサブセットを選択的に修正し、計算コスト、メモリ要件を低減し、残りのクラスの性能を維持するモデルの能力を向上させる。
論文 参考訳(メタデータ) (2024-11-16T16:47:57Z) - Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds [59.875550175217874]
本稿では,オンラインとオフラインのRL設定において,モデルベース強化学習方式が強い後悔とサンプル境界を実現することを示す。
我々のアルゴリズムは単純で、かなり標準的であり、実際にRLの文献で広く研究されている。
論文 参考訳(メタデータ) (2024-08-16T19:52:53Z) - In-Context Unlearning: Language Models as Few Shot Unlearners [27.962361828354716]
我々は,Large Language Models (LLMs) のための新しいアンラーニング手法を提案する。
このメソッドは、モデルパラメータを更新することなく、コンテキスト内で特定の種類の入力を提供することで、モデルからインスタンスを解放する。
実験の結果、文脈内アンラーニングは、モデルパラメータへのアクセスを必要とする他の最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-11T15:19:31Z) - An improved column-generation-based matheuristic for learning
classification trees [9.07661731728456]
決定木は機械学習(ML)における分類問題の解法として高度に解釈可能なモデルである
決定木を訓練するための標準的なMLアルゴリズムは高速だが、精度の点で最適木を生成する。
citefirat 2020column氏は、意思決定木を学習するためのカラムジェネレーションベースのアプローチを提案した。
論文 参考訳(メタデータ) (2023-08-22T14:43:36Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - PC-MLP: Model-based Reinforcement Learning with Policy Cover Guided
Exploration [15.173628100049129]
本研究では,カーネル化レギュレータ(KNR)と線形マルコフ決定過程(MDP)のモデルベースアルゴリズムについて検討する。
両方のモデルに対して、我々のアルゴリズムはサンプルの複雑さを保証し、プランニングオラクルへのアクセスのみを使用する。
また,提案手法は報酬のない探索を効率的に行うことができる。
論文 参考訳(メタデータ) (2021-07-15T15:49:30Z) - Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve
Optimism, Embrace Virtual Curvature [61.22680308681648]
決定論的報酬を有する1層ニューラルネットバンディットにおいても,グローバル収束は統計的に難解であることを示す。
非線形バンディットとRLの両方に対して,オンラインモデル学習者による仮想アセンジ(Virtual Ascent with Online Model Learner)というモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T12:41:56Z) - On Statistical Efficiency in Learning [37.08000833961712]
モデルフィッティングとモデル複雑性のバランスをとるためのモデル選択の課題に対処する。
モデルの複雑さを順次拡大し、選択安定性を高め、コストを削減するオンラインアルゴリズムを提案します。
実験の結果, 提案手法は予測能力が高く, 計算コストが比較的低いことがわかった。
論文 参考訳(メタデータ) (2020-12-24T16:08:29Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。