論文の概要: Vector-Valued Distributional Reinforcement Learning Policy Evaluation: A Hilbert Space Embedding Approach
- arxiv url: http://arxiv.org/abs/2601.18952v1
- Date: Mon, 26 Jan 2026 20:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.06659
- Title: Vector-Valued Distributional Reinforcement Learning Policy Evaluation: A Hilbert Space Embedding Approach
- Title(参考訳): ベクトル値分布強化学習政策評価:ヒルベルト空間埋め込みアプローチ
- Authors: Mehrdad Mohammadi, Qi Zheng, Ruoqing Zhu,
- Abstract要約: オフライン多次元分布強化学習フレームワーク(KE-DRL)を提案する。
ヒルベルト空間マッピングを用いて,多次元値分布のカーネル平均埋め込みを推定する。
シミュレーションと実証実験により、カーネルの平均埋め込みの堅牢な非政治評価と回復が示された。
- 参考スコア(独自算出の注目度): 5.7161009858370875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an (offline) multi-dimensional distributional reinforcement learning framework (KE-DRL) that leverages Hilbert space mappings to estimate the kernel mean embedding of the multi-dimensional value distribution under a proposed target policy. In our setting, the state-action variables are multi-dimensional and continuous. By mapping probability measures into a reproducing kernel Hilbert space via kernel mean embeddings, our method replaces Wasserstein metrics with an integral probability metric. This enables efficient estimation in multi-dimensional state-action spaces and reward settings, where direct computation of Wasserstein distances is computationally challenging. Theoretically, we establish contraction properties of the distributional Bellman operator under our proposed metric involving the Matern family of kernels and provide uniform convergence guarantees. Simulations and empirical results demonstrate robust off-policy evaluation and recovery of the kernel mean embedding under mild assumptions, namely, Lipschitz continuity and boundedness of the kernels, highlighting the potential of embedding-based approaches in complex real-world decision-making scenarios and risk evaluation.
- Abstract(参考訳): 本稿では,Hilbert空間マッピングを利用した(オフライン)多次元分布強化学習フレームワーク(KE-DRL)を提案する。
我々の設定では、状態-作用変数は多次元かつ連続である。
確率測度をカーネル平均埋め込みによる再生カーネルヒルベルト空間にマッピングすることにより、ワッサーシュタイン計量を積分確率計量に置き換える。
これにより、ワッサーシュタイン距離の直接計算が計算的に困難である多次元状態-作用空間と報酬設定の効率的な推定が可能となる。
理論的には、カーネルのMatern族を含む提案された計量の下で分布的ベルマン作用素の縮約特性を確立し、一様収束保証を提供する。
シミュレーションと実証実験により、カーネルの平均的埋め込み(Lipschitz continuity and boundedness of the kernels)は、複雑な実世界の意思決定シナリオやリスク評価において、埋め込みベースのアプローチの可能性を強調している。
関連論文リスト
- Notes on Kernel Methods in Machine Learning [0.8435614464136675]
我々は、正定値カーネルの理論を開発し、カーネルヒルベルト空間(RKHS)とヒルベルト・シュミット作用素を再現する。
また、カーネル密度推定、分布のカーネル埋め込み、最大平均離散性(MMD)も導入する。
この展示は、ガウス過程、カーネルベイズ推論、モダン機械学習に対する機能解析的アプローチなど、より高度なトピックの基盤として機能するよう設計されている。
論文 参考訳(メタデータ) (2025-11-18T13:29:07Z) - Bounds in Wasserstein Distance for Locally Stationary Processes [0.29771206318712146]
本研究では,局所定常(LSP)データに適した条件付き確率分布推定器を提案する。
我々は、ワーッサーシュタイン計量の下で、NWに基づく条件付き確率推定器の収束率を厳格に設定する。
合成データセットの広範な数値シミュレーションを行い,実世界のデータを用いた実証検証を行った。
論文 参考訳(メタデータ) (2024-12-04T15:51:22Z) - On Policy Evaluation Algorithms in Distributional Reinforcement Learning [0.0]
分散強化学習(DRL)による政策評価問題における未知の回帰分布を効率的に近似する新しいアルゴリズムのクラスを導入する。
提案したアルゴリズムの単純な例では、ワッサーシュタインとコルモゴロフ-スミルノフ距離の両方において誤差境界を証明する。
確率密度関数を持つ戻り分布の場合、アルゴリズムはこれらの密度を近似し、誤差境界は上限ノルム内で与えられる。
論文 参考訳(メタデータ) (2024-07-19T10:06:01Z) - A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - Safe Reinforcement Learning in Tensor Reproducing Kernel Hilbert Space [9.823296458696882]
伝統的な部分的に観察可能なマルコフ決定プロセスでは、安全を確保するには、一般に潜伏状態の信念を推定する必要がある。
本稿では,RLの安全性を,未知のシステム力学の面においてほぼ確実に保証するモデルに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-01T17:01:37Z) - Distribution Regression with Sliced Wasserstein Kernels [45.916342378789174]
分布回帰のための最初のOTに基づく推定器を提案する。
このような表現に基づくカーネルリッジ回帰推定器の理論的性質について検討する。
論文 参考訳(メタデータ) (2022-02-08T15:21:56Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - A Note on Optimizing Distributions using Kernel Mean Embeddings [94.96262888797257]
カーネル平均埋め込みは、その無限次元平均埋め込みによる確率測度を表す。
カーネルが特徴的である場合、カーネルの総和密度を持つ分布は密度が高いことを示す。
有限サンプル設定でそのような分布を最適化するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-18T08:33:45Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。