論文の概要: State-Action Similarity-Based Representations for Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2310.18409v1
- Date: Fri, 27 Oct 2023 18:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 18:44:49.565258
- Title: State-Action Similarity-Based Representations for Off-Policy Evaluation
- Title(参考訳): オフポリティ評価のための状態動作類似性に基づく表現
- Authors: Brahma S. Pavse and Josiah P. Hanna
- Abstract要約: 我々は,OPEが調整した状態行動類似度指標を導入し,この指標と固定データセットを用いて,この指標をモデル化したエンコーダを学習する。
我々は,FQE と OPE の誤りに対するデータ効率を,OPE の課題に対する他の OPE ベース表現学習手法と比較して向上させることを示す。
- 参考スコア(独自算出の注目度): 7.428147895832805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, off-policy evaluation (OPE) is the problem of
estimating the expected return of an evaluation policy given a fixed dataset
that was collected by running one or more different policies. One of the more
empirically successful algorithms for OPE has been the fitted q-evaluation
(FQE) algorithm that uses temporal difference updates to learn an action-value
function, which is then used to estimate the expected return of the evaluation
policy. Typically, the original fixed dataset is fed directly into FQE to learn
the action-value function of the evaluation policy. Instead, in this paper, we
seek to enhance the data-efficiency of FQE by first transforming the fixed
dataset using a learned encoder, and then feeding the transformed dataset into
FQE. To learn such an encoder, we introduce an OPE-tailored state-action
behavioral similarity metric, and use this metric and the fixed dataset to
learn an encoder that models this metric. Theoretically, we show that this
metric allows us to bound the error in the resulting OPE estimate. Empirically,
we show that other state-action similarity metrics lead to representations that
cannot represent the action-value function of the evaluation policy, and that
our state-action representation method boosts the data-efficiency of FQE and
lowers OPE error relative to other OPE-based representation learning methods on
challenging OPE tasks. We also empirically show that the learned
representations significantly mitigate divergence of FQE under varying
distribution shifts. Our code is available here:
https://github.com/Badger-RL/ROPE.
- Abstract(参考訳): 強化学習では、1つ以上の異なるポリシーを実行することで収集された固定データセットが与えられた場合、評価ポリシーの期待した回帰を推定する。
OPEのより経験的に成功したアルゴリズムの1つは、時間差分更新を用いてアクション値関数を学習し、評価ポリシーの期待した戻り値を推定する適合Q-evaluation (FQE)アルゴリズムである。
通常、元の固定データセットはFQEに直接入力され、評価ポリシーのアクション値関数を学習する。
本稿では、まず、学習エンコーダを用いて固定データセットを変換し、次に変換されたデータセットをFQEに変換することにより、FQEのデータ効率の向上を図る。
このようなエンコーダを学習するために、OPEが調整した状態行動類似度メトリックを導入し、このメトリックと固定データセットを使用して、このメトリックをモデル化するエンコーダを学ぶ。
理論的には、この計量はOPE推定結果の誤差を束縛できることを示している。
実験により、他の状態-作用類似度指標は評価ポリシーの行動-値関数を表現できない表現につながり、状態-作用表現法はFQEのデータ効率を高め、OPEタスクに挑戦する他のOPEベースの表現学習手法と比較してOPEエラーを低減させることを示した。
また, 分布変化の異なるfqeの発散を, 学習表現が著しく軽減することを示す。
私たちのコードは、https://github.com/Badger-RL/ROPE.comで利用可能です。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Diversity Enhanced Active Learning with Strictly Proper Scoring Rules [4.81450893955064]
テキスト分類のための能動学習(AL)のための獲得関数について検討する。
我々は、期待損失削減法(ELR)を、ログ確率や負平均二乗誤差などの(厳密な)スコアの増加を推定するために変換する。
BEMPSを用いた平均二乗誤差とログ確率を用いることで、ロバストな取得関数が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T05:02:11Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。