論文の概要: Continuous-time reinforcement learning for optimal switching over multiple regimes
- arxiv url: http://arxiv.org/abs/2512.04697v1
- Date: Thu, 04 Dec 2025 11:48:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.141269
- Title: Continuous-time reinforcement learning for optimal switching over multiple regimes
- Title(参考訳): 複数のレギュレータ上での最適切替のための連続時間強化学習
- Authors: Yijie Huang, Mengge Li, Xiang Yu, Zhou Zhou,
- Abstract要約: 本稿では,複数局にわたる最適切換問題に対する連続時間強化学習(RL)について検討する。
ハミルトン・ヤコビ・ベルマン方程式の関連する系を適切に設定し、最適政策の特徴づけを与える。
マルティンゲールの特徴に基づく政策評価を呼び起こして、強化学習アルゴリズムを考案し、実装する。
- 参考スコア(独自算出の注目度): 5.045537244224327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the continuous-time reinforcement learning (RL) for optimal switching problems across multiple regimes. We consider a type of exploratory formulation under entropy regularization where the agent randomizes both the timing of switches and the selection of regimes through the generator matrix of an associated continuous-time finite-state Markov chain. We establish the well-posedness of the associated system of Hamilton-Jacobi-Bellman (HJB) equations and provide a characterization of the optimal policy. The policy improvement and the convergence of the policy iterations are rigorously established by analyzing the system of equations. We also show the convergence of the value function in the exploratory formulation towards the value function in the classical formulation as the temperature parameter vanishes. Finally, a reinforcement learning algorithm is devised and implemented by invoking the policy evaluation based on the martingale characterization. Our numerical examples with the aid of neural networks illustrate the effectiveness of the proposed RL algorithm.
- Abstract(参考訳): 本稿では,複数局にわたる最適切換問題に対する連続時間強化学習(RL)について検討する。
エントロピー正則化の下での探索的定式化は、エージェントが関連する連続時間有限状態マルコフ連鎖の生成行列を通して、スイッチのタイミングと状態の選択の両方をランダム化するものである。
ハミルトン・ヤコビ・ベルマン方程式(英語版)(HJB)の関連システムの適切性を確立し、最適政策のキャラクタリゼーションを提供する。
政策改善と政策反復の収束は、方程式のシステムを分析することによって厳格に確立される。
また、温度パラメータが消えるにつれて、古典的定式化における値関数に対する探索的定式化における値関数の収束性を示す。
最後に、マーチンゲールの特徴に基づく政策評価を喚起し、強化学習アルゴリズムを考案し、実装する。
ニューラルネットワークを用いた数値例は,提案したRLアルゴリズムの有効性を示す。
関連論文リスト
- Continuous Policy and Value Iteration for Stochastic Control Problems and Its Convergence [8.65436459753278]
本稿では,制御問題の値関数と最適制御の近似をLangevin型力学を用いて同時に更新する連続ポリシー反復アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-09T18:20:21Z) - Causal Temporal Regime Structure Learning [49.77103348208835]
本稿では,DAG(Directed Acyclic Graph)を並列に学習する新しい手法であるCASTORを提案する。
我々は我々の枠組みの中で体制とDAGの識別可能性を確立する。
実験により、CASTORは既存の因果発見モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2023-11-02T17:26:49Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Optimal scheduling of entropy regulariser for continuous-time
linear-quadratic reinforcement learning [9.779769486156631]
ここで、エージェントは最適な緩和ポリシーに従って分散されたノイズ制御を生成することで環境と相互作用する。
この探索-探索トレードオフはエントロピー正則化の強さによって決定される。
どちらの学習アルゴリズムも、$mathcalO(sqrtN)$(対数係数まで)を$N$のエピソードよりも高く、文献から最もよく知られた結果と一致することを証明している。
論文 参考訳(メタデータ) (2022-08-08T23:36:40Z) - Distributional Hamilton-Jacobi-Bellman Equations for Continuous-Time
Reinforcement Learning [39.07307690074323]
本研究では,連続した環境下で対話するエージェントによって得られるリターンの分布を予測することの問題点を考察する。
正確なリターン予測は、リスクに敏感な制御、状態表現、マルチエージェント調整などのための最適なポリシーを決定するのに有用であることが証明されている。
本稿では、オンライン制御アルゴリズムで実装可能なJKOスキームに基づいて、分布HJBを近似的に解くことのできるトラクタブルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-24T16:33:54Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Optimization with Momentum: Dynamical, Control-Theoretic, and Symplectic
Perspectives [97.16266088683061]
この論文は、運動量に基づく最適化アルゴリズムにおいてシンプレクティックな離散化スキームが重要であることを厳格に証明している。
これは加速収束を示すアルゴリズムの特性を提供する。
論文 参考訳(メタデータ) (2020-02-28T00:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。