論文の概要: Revisiting Bellman Errors for Offline Model Selection
- arxiv url: http://arxiv.org/abs/2302.00141v2
- Date: Tue, 6 Jun 2023 16:09:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 20:56:21.622347
- Title: Revisiting Bellman Errors for Offline Model Selection
- Title(参考訳): オフラインモデル選択のためのbellmanエラーの再検討
- Authors: Joshua P. Zitovsky, Daniel de Marchi, Rishabh Agarwal, Michael R.
Kosorok
- Abstract要約: オフラインモデル選択(OMS)は、実世界の設定にオフラインRLを適用するために不可欠である。
広く研究されている考え方の一つは、関連するQ-函数の平均2乗ベルマン誤差(MSBE)に基づいてポリシーを選択することである。
ベルマンの誤りで十分なOMS性能を得るのに苦労し、多くの研究者がこのアイデアを放棄した。
- 参考スコア(独自算出の注目度): 9.09576624557571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline model selection (OMS), that is, choosing the best policy from a set
of many policies given only logged data, is crucial for applying offline RL in
real-world settings. One idea that has been extensively explored is to select
policies based on the mean squared Bellman error (MSBE) of the associated
Q-functions. However, previous work has struggled to obtain adequate OMS
performance with Bellman errors, leading many researchers to abandon the idea.
To this end, we elucidate why previous work has seen pessimistic results with
Bellman errors and identify conditions under which OMS algorithms based on
Bellman errors will perform well. Moreover, we develop a new estimator of the
MSBE that is more accurate than prior methods. Our estimator obtains impressive
OMS performance on diverse discrete control tasks, including Atari games.
- Abstract(参考訳): オフラインモデル選択(OMS)は、ログデータのみを付与する多くのポリシーセットからベストポリシーを選択することで、実世界の環境でオフラインRLを適用する上で重要である。
広く研究されてきた考え方は、関連するQ-函数の平均2乗ベルマン誤差(MSBE)に基づいてポリシーを選択することである。
しかし、ベルマンの誤りで十分なOMS性能を得るのに苦労し、多くの研究者がこのアイデアを放棄した。
この目的のために,ベルマン誤差による悲観的な結果が得られた理由を解明し,ベルマン誤差に基づくOMSアルゴリズムが良好に動作する条件を特定する。
さらに,従来の手法よりも高精度なMSBEの新しい推定器を開発した。
我々の推定値は、atariゲームを含む様々な離散制御タスクで印象的なoms性能を得る。
関連論文リスト
- To bootstrap or to rollout? An optimal and adaptive interpolation [4.755935781862859]
本稿では,ブートストラップ法とロールアウト法を補間するベルマン演算子のクラスを紹介する。
我々の推定器は、ブートストラップに基づく時間差(TD)推定器とロールアウトに基づくモンテカルロ(MC)手法の強度を組み合わせる。
論文 参考訳(メタデータ) (2024-11-14T19:00:00Z) - Towards Optimal Adversarial Robust Q-learning with Bellman Infinity-error [9.473089575932375]
最近の研究は、国家の敵対的ロバスト性を探究し、最適ロバスト政策(ORP)の潜在的な欠如を示唆している。
我々はベルマン最適政策に適合する決定論的かつ定常なORPの存在を証明した。
この発見は、ベルマン・インフィニティ・エラーのサロゲートを最小限にして、一貫性のある敵対的ロバスト深度Q-Network(CAR-DQN)を訓練する動機となる。
論文 参考訳(メタデータ) (2024-02-03T14:25:33Z) - Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。
本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。
逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-12-20T09:33:16Z) - LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning [1.5734309088976395]
本研究ではベルマン方程式の反復探索によるベルマン近似誤差の分布について検討した。
本稿では,ベルマン誤差の正規分布を仮定する平均二乗誤差(MSELoss)の代替として,ロジスティック最大度関数(LLoss)の利用を提案する。
論文 参考訳(メタデータ) (2023-07-05T15:00:29Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Learning Bellman Complete Representations for Offline Policy Evaluation [51.96704525783913]
サンプル効率のよいOPEの2つの条件は、ベルマン完全性とカバレッジである。
我々の表現は、政治外RLのために開発された従来の表現学習手法と比較して、OPEをより良くできることを示す。
論文 参考訳(メタデータ) (2022-07-12T21:02:02Z) - Robust Losses for Learning Value Functions [26.515147684526124]
強化学習におけるほとんどの値関数学習アルゴリズムは、平均2乗(投影)ベルマン誤差に基づいている。
我々は、サドルポイント最適化問題として正方形ベルマン誤差を修正した最近の知見に基づいて構築する。
オンラインのオフライン予測と制御設定の両方において、これらの損失を最小限に抑えるために、音の勾配に基づくアプローチを導出する。
論文 参考訳(メタデータ) (2022-05-17T16:10:05Z) - Why Should I Trust You, Bellman? The Bellman Error is a Poor Replacement
for Value Error [83.10489974736404]
本研究では,ベルマン方程式を値予測精度の代用目的として用いることを検討した。
ベルマン誤差は値関数の精度の指標として不十分であることがわかった。
論文 参考訳(メタデータ) (2022-01-28T21:03:59Z) - Bellman-consistent Pessimism for Offline Reinforcement Learning [46.97637726255375]
一般関数近似に対するベルマン一貫性悲観論の概念を導入する。
我々の理論的な保証は、探索的な設定において標準としてベルマン閉性を必要とするだけである。
論文 参考訳(メタデータ) (2021-06-13T05:50:36Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。