論文の概要: On the continuity and smoothness of the value function in reinforcement learning and optimal control
- arxiv url: http://arxiv.org/abs/2403.14432v1
- Date: Thu, 21 Mar 2024 14:39:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 13:59:14.676885
- Title: On the continuity and smoothness of the value function in reinforcement learning and optimal control
- Title(参考訳): 強化学習と最適制御における値関数の連続性と滑らか性について
- Authors: Hans Harder, Sebastian Peitz,
- Abstract要約: 基底系上の比較的弱い仮定の下では、値関数は常に H より古い連続であることが示される。
また, 微分不可能な値関数は, わずかに「乱れ」することで, 微分可能となることを示す。
- 参考スコア(独自算出の注目度): 1.534667887016089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The value function plays a crucial role as a measure for the cumulative future reward an agent receives in both reinforcement learning and optimal control. It is therefore of interest to study how similar the values of neighboring states are, i.e., to investigate the continuity of the value function. We do so by providing and verifying upper bounds on the value function's modulus of continuity. Additionally, we show that the value function is always H\"older continuous under relatively weak assumptions on the underlying system and that non-differentiable value functions can be made differentiable by slightly "disturbing" the system.
- Abstract(参考訳): 値関数は、エージェントが強化学習と最適制御の両方で受ける累積的未来報酬の尺度として重要な役割を果たす。
したがって、隣り合う状態の値がどの程度類似しているか、すなわち値関数の連続性を研究することは興味がある。
我々は、値関数の連続性のモジュラリティに関する上限を提供し、検証する。
さらに、基底系上の比較的弱い仮定の下では、値関数は常に H より古い連続であり、微分不可能な値関数は、系の少しの「乱れ」によって微分可能であることを示す。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Prediction and Control in Continual Reinforcement Learning [39.30411018922005]
時間差(TD)学習は、RLエージェントが有用なポリシーを抽出するために使用する値関数の見積を更新するためにしばしば使用される。
本稿では,値関数を異なる時間スケールで更新する2つのコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-12-18T19:23:42Z) - Leveraging Prior Knowledge in Reinforcement Learning via Double-Sided
Bounds on the Value Function [4.48890356952206]
本稿では、値関数の任意の近似を用いて、関心の最適値関数上の二辺境界を導出する方法を示す。
連続状態とアクション空間のエラー解析でフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-02-19T21:47:24Z) - Confidence-Conditioned Value Functions for Offline Reinforcement
Learning [86.59173545987984]
本稿では,任意の信頼度を高い確率で同時に学習するベルマンバックアップ方式を提案する。
理論的には、学習した値関数が真値の任意の信頼度で保守的な推定値を生成することを示す。
論文 参考訳(メタデータ) (2022-12-08T23:56:47Z) - Inference on Strongly Identified Functionals of Weakly Identified
Functions [71.42652863687117]
本研究では,ニュアンス関数が存在しない場合でも,関数を強く識別するための新しい条件について検討する。
本稿では,プライマリおよびデバイアスのニュアンス関数に対するペナル化ミニマックス推定器を提案する。
論文 参考訳(メタデータ) (2022-08-17T13:38:31Z) - Recurrent networks, hidden states and beliefs in partially observable
environments [3.4066110654930473]
強化学習は、動的に未知の環境との相互作用から最適な政策を学ぶことを目的としている。
隠れた状態では、部分的に観測可能な環境のQ-関数を近似した繰り返しニューラルネットワークが、最適な行動を取るという信念の関連する部分と相関する十分な統計を歴史から再現することを示す。
論文 参考訳(メタデータ) (2022-08-06T13:56:16Z) - Threading the Needle of On and Off-Manifold Value Functions for Shapley
Explanations [40.95261379462059]
モデルとデータ多様体の両方を尊重する値関数のデシラタを公理の集合で定式化する。
これらの公理を満たすユニークな値関数が存在することを示す。
論文 参考訳(メタデータ) (2022-02-24T06:22:34Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - On the coercivity condition in the learning of interacting particle
systems [7.089219223012485]
保磁力条件は、学習中に生じる積分核の厳密な正の定性と等価である。
系がエルゴードであるような相互作用関数のクラスに対して、積分核は厳密な正定値であり、従って保磁条件は真であることを示す。
論文 参考訳(メタデータ) (2020-11-20T16:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。