論文の概要: Continuous Q-Score Matching: Diffusion Guided Reinforcement Learning for Continuous-Time Control
- arxiv url: http://arxiv.org/abs/2510.17122v1
- Date: Mon, 20 Oct 2025 03:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.294619
- Title: Continuous Q-Score Matching: Diffusion Guided Reinforcement Learning for Continuous-Time Control
- Title(参考訳): 連続Qスコアマッチング:連続時間制御のための拡散誘導強化学習
- Authors: Chengxiu Hua, Jiawen Gu, Yushun Tang,
- Abstract要約: 微分方程式が状態-作用力学を制御できる連続時間制御の新しい手法を提案する。
我々の重要な貢献は、マーチンゲール条件による連続時間Q-関数の特徴づけである。
特に,連続時間RLにおける長年の課題として,Q関数の動作評価能力を時間離散化に頼らずに保存する手法を提案する。
- 参考スコア(独自算出の注目度): 5.975906953272315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has achieved significant success across a wide range of domains, however, most existing methods are formulated in discrete time. In this work, we introduce a novel RL method for continuous-time control, where stochastic differential equations govern state-action dynamics. Departing from traditional value function-based approaches, our key contribution is the characterization of continuous-time Q-functions via a martingale condition and the linking of diffusion policy scores to the action gradient of a learned continuous Q-function by the dynamic programming principle. This insight motivates Continuous Q-Score Matching (CQSM), a score-based policy improvement algorithm. Notably, our method addresses a long-standing challenge in continuous-time RL: preserving the action-evaluation capability of Q-functions without relying on time discretization. We further provide theoretical closed-form solutions for linear-quadratic (LQ) control problems within our framework. Numerical results in simulated environments demonstrate the effectiveness of our proposed method and compare it to popular baselines.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、様々な分野において大きな成功を収めてきたが、既存の手法の多くは離散時間で定式化されている。
本研究では,確率微分方程式が状態-作用力学を制御し,連続時間制御のための新しいRL法を提案する。
従来の値関数に基づくアプローチとは別に、マーチンゲール条件による連続Q関数の特徴付けと、動的プログラミング原理による学習された連続Q関数の作用勾配への拡散政策スコアのリンクが重要な貢献である。
この洞察は、スコアベースのポリシー改善アルゴリズムであるContinuous Q-Score Matching (CQSM) を動機付けている。
特に,連続時間RLにおける長年の課題である,Q関数の動作評価能力の保存は,時間的離散化に依存しない。
さらに、我々のフレームワーク内の線形四元数制御問題に対する理論的閉形式解を提供する。
シミュレーション環境における数値計算の結果,提案手法の有効性を実証し,一般的なベースラインと比較した。
関連論文リスト
- Bridging Discrete and Continuous RL: Stable Deterministic Policy Gradient with Martingale Characterization [12.269012358096667]
離散時間アルゴリズムを連続時間設定に拡張する際の大きな課題は、時間離散化に対する感度である。
連続時間強化学習のための決定論的政策勾配法を提案する。
提案アルゴリズムは,従来の離散時間法や連続時間法と比較して,安定性と収束性を向上する。
論文 参考訳(メタデータ) (2025-09-28T07:53:33Z) - Universal Approximation Theorem of Deep Q-Networks [2.1756081703276]
我々は制御とFBSDE(Forward-Backward Differential Equations)を通してDeep Q-Networks(DQN)の分析を行う。
DQN は任意の精度と高い確率でコンパクト集合上の最適Q-函数を近似できることを示す。
この作業は、深い強化学習とコントロールをブリッジし、継続的設定でDQNに関する洞察を提供する。
論文 参考訳(メタデータ) (2025-05-04T22:57:33Z) - Q-function Decomposition with Intervention Semantics with Factored Action Spaces [51.01244229483353]
元の作用空間の低次元射影部分空間上で定義されるQ-函数を考察し、分解されたQ-函数の不偏性について考察する。
これにより、標準モデルフリー強化学習アルゴリズムにおいて、予測Q関数を用いてQ関数を近似する動作分解強化学習と呼ばれる一般的なスキームが導かれる。
論文 参考訳(メタデータ) (2025-04-30T05:26:51Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - q-Learning in Continuous Time [11.694169299062597]
エントロピー規則化探索拡散過程の定式化による強化学習(RL)におけるQ-ラーニングの連続的対応について検討した。
我々は、時間離散化とは無関係なq-函数に関するq-ラーニング理論を開発する。
我々は、根底にある問題を解決するために、異なるアクター批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2022-07-02T02:20:41Z) - Value Iteration in Continuous Actions, States and Time [99.00362538261972]
連続状態と動作に対する連続的適合値反復(cFVI)アルゴリズムを提案する。
非線形制御アフィンダイナミクスに対して最適なポリシを導出することができる。
物理システムのビデオは、urlhttps://sites.google.com/view/value-iteration.comで入手できる。
論文 参考訳(メタデータ) (2021-05-10T21:40:56Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。