Fugu-MT 論文翻訳(概要): Revisiting Bellman Errors for Offline Model Selection

論文の概要: Revisiting Bellman Errors for Offline Model Selection

arxiv url: http://arxiv.org/abs/2302.00141v1
Date: Tue, 31 Jan 2023 23:14:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-02 13:42:06.960278
Title: Revisiting Bellman Errors for Offline Model Selection
Title（参考訳）: オフラインモデル選択のためのbellmanエラーの再検討
Authors: Joshua P. Zitovsky (1), Daniel de Marchi (1), Rishabh Agarwal (2), Michael R. Kosorok (1) ((1) University of North Carolina at Chapel Hill, (2) Google Research Brain Team)
Abstract要約: オフラインモデル選択(OMS)は、実世界の設定にオフラインRLを適用するために不可欠である。広く研究されている考え方の一つは、関連するQ-函数の平均2乗ベルマン誤差(MSBE)に基づいてポリシーを選択することである。ベルマンの誤りで十分なOMS性能を得るのに苦労し、多くの研究者がこのアイデアを放棄した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Offline model selection (OMS), that is, choosing the best policy from a set of many policies given only logged data, is crucial for applying offline RL in real-world settings. One idea that has been extensively explored is to select policies based on the mean squared Bellman error (MSBE) of the associated Q-functions. However, previous work has struggled to obtain adequate OMS performance with Bellman errors, leading many researchers to abandon the idea. Through theoretical and empirical analyses, we elucidate why previous work has seen pessimistic results with Bellman errors and identify conditions under which OMS algorithms based on Bellman errors will perform well. Moreover, we develop a new estimator of the MSBE that is more accurate than prior methods and obtains impressive OMS performance on diverse discrete control tasks, including Atari games. We open-source our data and code to enable researchers to conduct OMS experiments more easily.
Abstract（参考訳）: オフラインモデル選択(OMS)は、ログデータのみを付与する多くのポリシーセットからベストポリシーを選択することで、実世界の環境でオフラインRLを適用する上で重要である。広く研究されてきた考え方は、関連するQ-函数の平均2乗ベルマン誤差(MSBE)に基づいてポリシーを選択することである。しかし、ベルマンの誤りで十分なOMS性能を得るのに苦労し、多くの研究者がこのアイデアを放棄した。理論的および経験的分析を通じて、ベルマン誤差による悲観的な結果が得られた理由を解明し、ベルマン誤差に基づくOMSアルゴリズムがうまく機能する条件を特定する。さらに,従来の手法よりも精度の高いmsbeの新しい推定器を開発し,atariゲームを含む多様な離散制御タスクにおいて印象的なoms性能を得る。私たちは、研究者がより簡単にOMS実験を行えるように、データとコードをオープンソースにしています。

関連論文リスト

Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文参考訳（メタデータ） (2025-05-21T09:41:53Z)
To bootstrap or to rollout? An optimal and adaptive interpolation [4.755935781862859]
本稿では,ブートストラップ法とロールアウト法を補間するベルマン演算子のクラスを紹介する。我々の推定器は、ブートストラップに基づく時間差(TD)推定器とロールアウトに基づくモンテカルロ(MC)手法の強度を組み合わせる。
論文参考訳（メタデータ） (2024-11-14T19:00:00Z)
Towards Optimal Adversarial Robust Q-learning with Bellman Infinity-error [9.473089575932375]
最近の研究は、国家の敵対的ロバスト性を探究し、最適ロバスト政策(ORP)の潜在的な欠如を示唆している。我々はベルマン最適政策に適合する決定論的かつ定常なORPの存在を証明した。この発見は、ベルマン・インフィニティ・エラーのサロゲートを最小限にして、一貫性のある敵対的ロバスト深度Q-Network(CAR-DQN)を訓練する動機となる。
論文参考訳（メタデータ） (2024-02-03T14:25:33Z)
Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文参考訳（メタデータ） (2023-12-20T09:33:16Z)
LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning [1.5734309088976395]
本研究ではベルマン方程式の反復探索によるベルマン近似誤差の分布について検討した。本稿では,ベルマン誤差の正規分布を仮定する平均二乗誤差(MSELoss)の代替として,ロジスティック最大度関数(LLoss)の利用を提案する。
論文参考訳（メタデータ） (2023-07-05T15:00:29Z)
MAPS: A Noise-Robust Progressive Learning Approach for Source-Free Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文参考訳（メタデータ） (2023-02-09T12:06:08Z)
Learning Bellman Complete Representations for Offline Policy Evaluation [51.96704525783913]
サンプル効率のよいOPEの2つの条件は、ベルマン完全性とカバレッジである。我々の表現は、政治外RLのために開発された従来の表現学習手法と比較して、OPEをより良くできることを示す。
論文参考訳（メタデータ） (2022-07-12T21:02:02Z)
Robust Losses for Learning Value Functions [26.515147684526124]
強化学習におけるほとんどの値関数学習アルゴリズムは、平均2乗(投影)ベルマン誤差に基づいている。我々は、サドルポイント最適化問題として正方形ベルマン誤差を修正した最近の知見に基づいて構築する。オンラインのオフライン予測と制御設定の両方において、これらの損失を最小限に抑えるために、音の勾配に基づくアプローチを導出する。
論文参考訳（メタデータ） (2022-05-17T16:10:05Z)
Why Should I Trust You, Bellman? The Bellman Error is a Poor Replacement for Value Error [83.10489974736404]
本研究では,ベルマン方程式を値予測精度の代用目的として用いることを検討した。ベルマン誤差は値関数の精度の指標として不十分であることがわかった。
論文参考訳（メタデータ） (2022-01-28T21:03:59Z)
Bellman-consistent Pessimism for Offline Reinforcement Learning [46.97637726255375]
一般関数近似に対するベルマン一貫性悲観論の概念を導入する。我々の理論的な保証は、探索的な設定において標準としてベルマン閉性を必要とするだけである。
論文参考訳（メタデータ） (2021-06-13T05:50:36Z)
Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文参考訳（メタデータ） (2021-06-09T12:20:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。