論文の概要: A Robust Model-Based Approach for Continuous-Time Policy Evaluation with Unknown Lévy Process Dynamics
- arxiv url: http://arxiv.org/abs/2504.01482v1
- Date: Wed, 02 Apr 2025 08:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:17:55.494847
- Title: A Robust Model-Based Approach for Continuous-Time Policy Evaluation with Unknown Lévy Process Dynamics
- Title(参考訳): 未知のLévyプロセスダイナミクスを用いたロバストモデルに基づく連続時間政策評価
- Authors: Qihao Ye, Xiaochuan Tian, Yuhua Zhu,
- Abstract要約: 本稿では,継続的政策評価のためのモデルベースフレームワークを開発する。
ブラウンとレヴィのノイズを組み込んで、稀な出来事や極端な出来事の影響を受けやすい力学をモデル化する。
- 参考スコア(独自算出の注目度): 1.0923877073891446
- License:
- Abstract: This paper develops a model-based framework for continuous-time policy evaluation (CTPE) in reinforcement learning, incorporating both Brownian and L\'evy noise to model stochastic dynamics influenced by rare and extreme events. Our approach formulates the policy evaluation problem as solving a partial integro-differential equation (PIDE) for the value function with unknown coefficients. A key challenge in this setting is accurately recovering the unknown coefficients in the stochastic dynamics, particularly when driven by L\'evy processes with heavy tail effects. To address this, we propose a robust numerical approach that effectively handles both unbiased and censored trajectory datasets. This method combines maximum likelihood estimation with an iterative tail correction mechanism, improving the stability and accuracy of coefficient recovery. Additionally, we establish a theoretical bound for the policy evaluation error based on coefficient recovery error. Through numerical experiments, we demonstrate the effectiveness and robustness of our method in recovering heavy-tailed L\'evy dynamics and verify the theoretical error analysis in policy evaluation.
- Abstract(参考訳): 本稿では, 強化学習における連続時間政策評価(CTPE)のモデルベースフレームワークを開発し, ブラウン雑音とL''evy雑音を加味して, 希少事象と極端事象の影響を受けやすい確率力学をモデル化する。
提案手法は,未知の係数を持つ値関数に対する部分積分微分方程式(PIDE)の解法として,政策評価問題を定式化する。
この設定における重要な課題は、確率力学における未知の係数を正確に回復することであり、特に重い尾効果を持つL''evy過程によって駆動される場合である。
そこで本稿では,非バイアスと検閲されたトラジェクトリデータセットの両方を効果的に扱う,頑健な数値的手法を提案する。
本手法は,最大誤差推定を反復尾補正機構と組み合わせ,係数回復の安定性と精度を向上させる。
さらに,係数回復誤差に基づく政策評価誤差の理論的境界を確立する。
数値実験を通じて,重み付きL\'evy力学の回復における本手法の有効性とロバスト性を実証し,政策評価における理論的誤差解析の検証を行った。
関連論文リスト
- RieszBoost: Gradient Boosting for Riesz Regression [49.737777802061984]
本稿では,Riesz表現子を直接推定するために,その明示的な解析形式を必要とせず,新たな勾配向上アルゴリズムを提案する。
提案アルゴリズムは,様々な関数を対象とした間接推定手法と同等以上の性能を示す。
論文 参考訳(メタデータ) (2025-01-08T23:04:32Z) - Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。
我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。
当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文 参考訳(メタデータ) (2024-11-04T11:09:58Z) - Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian
Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。
コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。
本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文 参考訳(メタデータ) (2023-12-21T16:34:03Z) - Model-Based Offline Reinforcement Learning with Pessimism-Modulated
Dynamics Belief [3.0036519884678894]
モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。
本研究は, 力学上の信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。
偏りのあるサンプリングは、Pessimism-Modulated Dynamics Beliefと呼ばれる、ポリシー依存の再重み付けによる更新された動的信念を自然に引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-13T03:14:36Z) - Geometric Value Iteration: Dynamic Error-Aware KL Regularization for
Reinforcement Learning [11.82492300303637]
動的係数スキームについて検討し,第1次誤差境界を示す。
より頑健な学習のために,誤差の大きさに応じて係数を調整するための効果的なスキームを提案する。
実験により, 一定KL係数の均一平均化に対する学習速度とロバスト性とのトレードオフを効果的に活用できることが実証された。
論文 参考訳(メタデータ) (2021-07-16T01:24:37Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Foresee then Evaluate: Decomposing Value Estimation with Latent Future
Prediction [37.06232589005015]
価値関数は強化学習(rl)の中心的な概念である
将来予測付き価値分解(VDFP)を提案する。
価値関数を潜在未来ダイナミクス部とポリシー非依存軌道返却部とに分析分解し、潜在ダイナミクスをモデル化する方法を誘導し、価値推定において別々に返却する。
論文 参考訳(メタデータ) (2021-03-03T07:28:56Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。
オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。
提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文 参考訳(メタデータ) (2020-01-08T10:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。