論文の概要: Reinforcement Learning with Random Time Horizons
- arxiv url: http://arxiv.org/abs/2506.00962v1
- Date: Sun, 01 Jun 2025 11:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.236913
- Title: Reinforcement Learning with Random Time Horizons
- Title(参考訳): ランダム時間ホライズンズを用いた強化学習
- Authors: Enric Ribera Borrell, Lorenz Richter, Christof Schütte,
- Abstract要約: 複数の実世界のアプリケーションは、自然にランダムな(潜在的に軌道依存的な)停止時間を示す。
これらの停止時間は一般的にポリシーに依存するため、それらのランダム性はポリシー勾配公式に影響を及ぼす。
我々は、軌道または状態空間に基づく2つの相補的な視点を示し、最適制御理論との接続を確立する。
- 参考スコア(独自算出の注目度): 4.997673761305336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We extend the standard reinforcement learning framework to random time horizons. While the classical setting typically assumes finite and deterministic or infinite runtimes of trajectories, we argue that multiple real-world applications naturally exhibit random (potentially trajectory-dependent) stopping times. Since those stopping times typically depend on the policy, their randomness has an effect on policy gradient formulas, which we (mostly for the first time) derive rigorously in this work both for stochastic and deterministic policies. We present two complementary perspectives, trajectory or state-space based, and establish connections to optimal control theory. Our numerical experiments demonstrate that using the proposed formulas can significantly improve optimization convergence compared to traditional approaches.
- Abstract(参考訳): 標準強化学習フレームワークをランダムな時間軸に拡張する。
古典的な設定は典型的には有限かつ決定論的あるいは無限な軌跡のランタイムを仮定するが、複数の実世界の応用は自然にランダムな(潜在的に軌跡に依存した)停止時間を示すと論じる。
これらの停止時間は通常ポリシーに依存するため、そのランダム性はポリシー勾配公式に影響を及ぼすが、これは(ほとんどは)この研究において確率的および決定論的ポリシーの両方のために厳密に導かれる。
我々は、軌道または状態空間に基づく2つの相補的な視点を示し、最適制御理論との接続を確立する。
提案手法を用いることで,従来の手法に比べて最適化収束性を大幅に向上できることを示す。
関連論文リスト
- Accuracy of Discretely Sampled Stochastic Policies in Continuous-time Reinforcement Learning [7.126779417918601]
我々は、個別の時点におけるポリシーからアクションをサンプリングするポリシー実行フレームワークを厳格に分析し、それらを断片的に一定の制御として実装する。
サンプリングメッシュのサイズがゼロになる傾向にあるため、制御状態プロセスはポリシーに従って集約された係数で動的に弱収束する。
これらの結果に基づいて、離散時間観測に基づいて、様々な政策評価と政策勾配推定器のバイアスとばらつきを分析した。
論文 参考訳(メタデータ) (2025-03-13T02:35:23Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization [20.651913793555163]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。
提案したアルゴリズムに対して,大域的最適収束結果と$widetildemathcalO(frac1epsilon2)$のサンプル複雑性を確立する。
論文 参考訳(メタデータ) (2021-10-19T17:21:09Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
一般PbRL問題に対する最初の有限時間解析を提案する。
論文 参考訳(メタデータ) (2020-06-16T03:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。