論文の概要: A Principled Path to Fitted Distributional Evaluation
- arxiv url: http://arxiv.org/abs/2506.20048v1
- Date: Tue, 24 Jun 2025 23:08:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.557093
- Title: A Principled Path to Fitted Distributional Evaluation
- Title(参考訳): フィット分布評価の原理的経路
- Authors: Sungee Hong, Jiayi Wang, Zhengling Qi, Raymond Ka Wai Wong,
- Abstract要約: 本研究は、広く使われている適合Q評価を分散OPE設定に拡張することに焦点を当てる。
我々はこの拡張を適合分布評価(FDE)と呼ぶ。
このギャップを埋めるために、理論的に基礎付けられたFDE法を構築するための一連の指針を提示する。
- 参考スコア(独自算出の注目度): 7.650657158461654
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In reinforcement learning, distributional off-policy evaluation (OPE) focuses on estimating the return distribution of a target policy using offline data collected under a different policy. This work focuses on extending the widely used fitted-Q evaluation -- developed for expectation-based reinforcement learning -- to the distributional OPE setting. We refer to this extension as fitted distributional evaluation (FDE). While only a few related approaches exist, there remains no unified framework for designing FDE methods. To fill this gap, we present a set of guiding principles for constructing theoretically grounded FDE methods. Building on these principles, we develop several new FDE methods with convergence analysis and provide theoretical justification for existing methods, even in non-tabular environments. Extensive experiments, including simulations on linear quadratic regulators and Atari games, demonstrate the superior performance of the FDE methods.
- Abstract(参考訳): 強化学習では,異なる方針の下で収集されたオフラインデータを用いて,対象方針の回帰分布を推定することに焦点を当てた分布オフ政治評価(OPE)を行う。
この研究は、期待に基づく強化学習のために開発された、広く使われている適合Q評価を、分散OPE設定にまで拡張することに焦点を当てている。
本稿では,この拡張を適応分布評価(FDE)と呼ぶ。
関連するアプローチはいくつか存在するが、FDEメソッドを設計するための統一されたフレームワークはいまだに存在しない。
このギャップを埋めるために、理論的に基礎付けられたFDE法を構築するための一連の指針を提示する。
これらの原理に基づいて,収束解析を用いた新しいFDE法を開発し,非語彙環境においても既存手法の理論的正当性を提供する。
線形二次レギュレータやアタリゲームに関するシミュレーションを含む大規模な実験は、FDE法の優れた性能を実証している。
関連論文リスト
- Analytic Energy-Guided Policy Optimization for Offline Reinforcement Learning [54.07840818762834]
拡散モデルによる条件決定生成は強化学習(RL)において強力な競争力を示す。
近年の研究では、エネルギー-関数-誘導拡散モデルと制約付きRL問題との関係が明らかにされている。
主な課題は中間エネルギーを推定することであり、これは生成過程における対数予測の定式化によって引き起こされる。
論文 参考訳(メタデータ) (2025-05-03T14:00:25Z) - Domain Adaptation and Entanglement: an Optimal Transport Perspective [86.24617989187988]
現在の機械学習システムは分散シフト(DS)に直面して脆弱であり、そこでは、システムがテストされる対象の分布は、システムのトレーニングに使用されるソースの分布とは異なる。
ディープニューラルネットワークでは、教師なしドメイン適応(UDA)のための一般的なフレームワークがドメインマッチングである。
本稿では,UDA問題を解析する最適な輸送量に基づく新しい境界を導出する。
論文 参考訳(メタデータ) (2025-03-11T08:10:03Z) - Distributionally Robust Policy Evaluation and Learning for Continuous Treatment with Observational Data [20.125760566665704]
政策評価と学習にオフライン観測データを使用することで、意思決定者は特性と介入を結びつける政策を評価し学習することができる。
既存の文献の多くは、個別の処理空間に焦点を絞ったり、政策学習環境と政策デプロイ環境の分布に違いを仮定しなかったりしている。
本稿では, 継続的処理環境下での分散的ロバストなポリシーの開発に焦点をあてる。
論文 参考訳(メタデータ) (2025-01-18T08:12:56Z) - Causal Deepsets for Off-policy Evaluation under Spatial or Spatio-temporal Interferences [24.361550505778155]
オフコマース評価(OPE)は、医薬品やe-policy-policyなどの分野に広く適用されている。
本稿では,いくつかの重要な構造的仮定を緩和する因果的深層化フレームワークを提案する。
PI仮定をOPEに組み込んだ新しいアルゴリズムを提案し,その理論的基礎を徹底的に検証する。
論文 参考訳(メタデータ) (2024-07-25T10:02:11Z) - Distributional Off-policy Evaluation with Bellman Residual Minimization [12.343981093497332]
配電型オフ政治評価(OPE)について検討する。
目標は、異なるポリシーによって生成されたオフラインデータを使用して、ターゲットポリシーに対するリターンの分布を学習することである。
我々はEnergy Bellman Residual Minimizer (EBRM)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T20:59:29Z) - Learning from Sparse Offline Datasets via Conservative Density
Estimation [27.93418377019955]
保守密度推定(CDE)と呼ばれる新しいトレーニングアルゴリズムを提案する。
CDEはこの課題に対処し、州が占有する定常分布に明示的に制約を課す。
本手法はD4RLベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-16T20:42:15Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Variance-Preserving-Based Interpolation Diffusion Models for Speech
Enhancement [53.2171981279647]
本稿では,VP-および分散拡散(VE)に基づく拡散法の両方をカプセル化するフレームワークを提案する。
本研究では,拡散モデルで発生する一般的な困難を解析し,性能の向上とモデルトレーニングの容易化を図る。
我々は,提案手法の有効性を示すために,公開ベンチマークを用いたいくつかの手法によるモデルの評価を行った。
論文 参考訳(メタデータ) (2023-06-14T14:22:22Z) - Bootstrapping Statistical Inference for Off-Policy Evaluation [43.79456564713911]
オフ政治評価(OPE)におけるブートストラップの利用について検討する。
本稿では,政策評価誤差の分布を推定するブートストラップFQE法を提案し,この手法が政治外の統計的推測に有効で一貫性があることを示す。
我々は,古典的RL環境におけるブートラッピング手法の評価を行い,信頼区間推定,オフポリチック評価器のばらつきの推定,複数オフポリチック評価器の相関性の推定を行った。
論文 参考訳(メタデータ) (2021-02-06T16:45:33Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。