論文の概要: Decoupled Continuous-Time Reinforcement Learning via Hamiltonian Flow
- arxiv url: http://arxiv.org/abs/2602.14587v1
- Date: Mon, 16 Feb 2026 09:35:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.351436
- Title: Decoupled Continuous-Time Reinforcement Learning via Hamiltonian Flow
- Title(参考訳): ハミルトン流による連続時間強化学習の分離
- Authors: Minh Nguyen,
- Abstract要約: 現実世界の制御問題は、一様でイベント駆動的な決定で連続的に進化する。
時間ギャップが縮むと、$Q$関数は値関数$V$に崩壊し、アクションランキングがなくなる。
既存の連続時間メソッドは、利益率関数$q$でアクション情報を再導入する。
本稿では,更新を交互に行う新しい非結合型連続時間アクター批判アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.8824572526199168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world control problems, ranging from finance to robotics, evolve in continuous time with non-uniform, event-driven decisions. Standard discrete-time reinforcement learning (RL), based on fixed-step Bellman updates, struggles in this setting: as time gaps shrink, the $Q$-function collapses to the value function $V$, eliminating action ranking. Existing continuous-time methods reintroduce action information via an advantage-rate function $q$. However, they enforce optimality through complicated martingale losses or orthogonality constraints, which are sensitive to the choice of test processes. These approaches entangle $V$ and $q$ into a large, complex optimization problem that is difficult to train reliably. To address these limitations, we propose a novel decoupled continuous-time actor-critic algorithm with alternating updates: $q$ is learned from diffusion generators on $V$, and $V$ is updated via a Hamiltonian-based value flow that remains informative under infinitesimal time steps, where standard max/softmax backups fail. Theoretically, we prove rigorous convergence via new probabilistic arguments, sidestepping the challenge that generator-based Hamiltonians lack Bellman-style contraction under the sup-norm. Empirically, our method outperforms prior continuous-time and leading discrete-time baselines across challenging continuous-control benchmarks and a real-world trading task, achieving 21% profit over a single quarter$-$nearly doubling the second-best method.
- Abstract(参考訳): ファイナンスからロボティクスまで、多くの現実世界の制御問題は、一様でイベント駆動的な決定で連続的に進化する。
固定ステップのベルマン更新に基づく標準離散時間強化学習(RL)は、時間ギャップが小さくなるにつれて、$Q$関数が値関数$V$に崩壊し、アクションランキングがなくなる。
既存の連続時間メソッドは、利益率関数$q$でアクション情報を再導入する。
しかし、それらはテストプロセスの選択に敏感な複雑なマーチンゲール損失や直交性の制約を通じて最適性を強制する。
これらのアプローチは、$V$と$q$を、信頼性の高いトレーニングが難しい大規模で複雑な最適化問題に巻き込む。
これらの制限に対処するため、我々は、更新を交互に行う新しい分離された連続時間アクター批判アルゴリズムを提案する:$q$は、$V$上の拡散発生器から学習され、$V$は、標準のmax/softmaxバックアップが失敗する無限小の時間ステップの下で情報的であり続けるハミルトニアンの値フローを介して更新される。
理論上、我々は新しい確率論を通じて厳密な収束を証明し、生成元に基づくハミルトン多様体が超ノルムの下でベルマン型収縮を欠いているという課題を脇取りする。
実証的に,本手法は,挑戦的連続制御ベンチマークと実世界のトレーディングタスクにまたがって,先行的連続時間および先行的離散的ベースラインよりも優れており,第2のベストメソッドの2倍の1クォーターに対して21%の利益を達成している。
関連論文リスト
- From Continual Learning to SGD and Back: Better Rates for Continual Linear Models [50.11453013647086]
以前見られたタスクの損失を、$k$の繰り返しの後、忘れること、すなわち、分析する。
実現可能な最小二乗の設定において、新しい最上界を創出する。
我々は、タスクを繰り返しないランダム化だけで、十分に長いタスクシーケンスで破滅的な事態を防げることを初めて証明した。
論文 参考訳(メタデータ) (2025-04-06T18:39:45Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - Non-stationary Delayed Online Convex Optimization: From Full-information to Bandit Setting [71.82716109461967]
遅延勾配が利用できる全情報ケースに対して Mild-OGD というアルゴリズムを提案する。
ミルド-OGDのダイナミックな後悔は、順番の仮定の下で$O(sqrtbardT(P_T+1))$で自動的に束縛されることを示す。
Mild-OGDのバンディット版も開発し,損失値の遅れのみを考慮に入れた,より困難なケースについて検討した。
論文 参考訳(メタデータ) (2023-05-20T07:54:07Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Accelerated Learning with Robustness to Adversarial Regressors [1.0499611180329802]
本稿では,逆回帰器の存在下での安定性と収束性を保証する離散時間アルゴリズムを提案する。
特に、回帰器が一定である場合、我々のアルゴリズムは少なくとも $tildemathcalO (1/sqrtepsilon)$ において $epsilon$ 準最適点に達する。
論文 参考訳(メタデータ) (2020-05-04T14:42:49Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。