論文の概要: A Principled Path to Fitted Distributional Evaluation
- arxiv url: http://arxiv.org/abs/2506.20048v1
- Date: Tue, 24 Jun 2025 23:08:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.557093
- Title: A Principled Path to Fitted Distributional Evaluation
- Title(参考訳): フィット分布評価の原理的経路
- Authors: Sungee Hong, Jiayi Wang, Zhengling Qi, Raymond Ka Wai Wong,
- Abstract要約: 本研究は、広く使われている適合Q評価を分散OPE設定に拡張することに焦点を当てる。
我々はこの拡張を適合分布評価(FDE)と呼ぶ。
このギャップを埋めるために、理論的に基礎付けられたFDE法を構築するための一連の指針を提示する。
- 参考スコア(独自算出の注目度): 7.650657158461654
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In reinforcement learning, distributional off-policy evaluation (OPE) focuses on estimating the return distribution of a target policy using offline data collected under a different policy. This work focuses on extending the widely used fitted-Q evaluation -- developed for expectation-based reinforcement learning -- to the distributional OPE setting. We refer to this extension as fitted distributional evaluation (FDE). While only a few related approaches exist, there remains no unified framework for designing FDE methods. To fill this gap, we present a set of guiding principles for constructing theoretically grounded FDE methods. Building on these principles, we develop several new FDE methods with convergence analysis and provide theoretical justification for existing methods, even in non-tabular environments. Extensive experiments, including simulations on linear quadratic regulators and Atari games, demonstrate the superior performance of the FDE methods.
- Abstract(参考訳): 強化学習では,異なる方針の下で収集されたオフラインデータを用いて,対象方針の回帰分布を推定することに焦点を当てた分布オフ政治評価(OPE)を行う。
この研究は、期待に基づく強化学習のために開発された、広く使われている適合Q評価を、分散OPE設定にまで拡張することに焦点を当てている。
本稿では,この拡張を適応分布評価(FDE)と呼ぶ。
関連するアプローチはいくつか存在するが、FDEメソッドを設計するための統一されたフレームワークはいまだに存在しない。
このギャップを埋めるために、理論的に基礎付けられたFDE法を構築するための一連の指針を提示する。
これらの原理に基づいて,収束解析を用いた新しいFDE法を開発し,非語彙環境においても既存手法の理論的正当性を提供する。
線形二次レギュレータやアタリゲームに関するシミュレーションを含む大規模な実験は、FDE法の優れた性能を実証している。
関連論文リスト
- Causal Deepsets for Off-policy Evaluation under Spatial or Spatio-temporal Interferences [24.361550505778155]
オフコマース評価(OPE)は、医薬品やe-policy-policyなどの分野に広く適用されている。
本稿では,いくつかの重要な構造的仮定を緩和する因果的深層化フレームワークを提案する。
PI仮定をOPEに組み込んだ新しいアルゴリズムを提案し,その理論的基礎を徹底的に検証する。
論文 参考訳(メタデータ) (2024-07-25T10:02:11Z) - Distributional Off-policy Evaluation with Bellman Residual Minimization [12.343981093497332]
配電型オフ政治評価(OPE)について検討する。
目標は、異なるポリシーによって生成されたオフラインデータを使用して、ターゲットポリシーに対するリターンの分布を学習することである。
我々はEnergy Bellman Residual Minimizer (EBRM)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T20:59:29Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Variance-Preserving-Based Interpolation Diffusion Models for Speech
Enhancement [53.2171981279647]
本稿では,VP-および分散拡散(VE)に基づく拡散法の両方をカプセル化するフレームワークを提案する。
本研究では,拡散モデルで発生する一般的な困難を解析し,性能の向上とモデルトレーニングの容易化を図る。
我々は,提案手法の有効性を示すために,公開ベンチマークを用いたいくつかの手法によるモデルの評価を行った。
論文 参考訳(メタデータ) (2023-06-14T14:22:22Z) - Bootstrapping Statistical Inference for Off-Policy Evaluation [43.79456564713911]
オフ政治評価(OPE)におけるブートストラップの利用について検討する。
本稿では,政策評価誤差の分布を推定するブートストラップFQE法を提案し,この手法が政治外の統計的推測に有効で一貫性があることを示す。
我々は,古典的RL環境におけるブートラッピング手法の評価を行い,信頼区間推定,オフポリチック評価器のばらつきの推定,複数オフポリチック評価器の相関性の推定を行った。
論文 参考訳(メタデータ) (2021-02-06T16:45:33Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。