論文の概要: From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments
- arxiv url: http://arxiv.org/abs/2606.04275v1
- Date: Tue, 02 Jun 2026 23:02:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.419678
- Title: From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments
- Title(参考訳): ティックからフローへ:連続環境における神経強化学習のダイナミクス
- Authors: Saket Tiwari, Tejas Kotwal, George Konidaris,
- Abstract要約: 連続環境における深部強化学習(RL)の新たな理論的枠組みを提案する。
探索と遷移の両方を組み込んだアクター・クリティカル・アルゴリズムの実行可能なモデルを導入する。
我々は,おもちゃの連続制御タスクを用いて理論的結果を実証的に相関させる。
- 参考スコア(独自算出の注目度): 11.853431428286598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel theoretical framework for deep reinforcement learning (RL) in continuous environments by modeling the problem as a continuous-time stochastic process, drawing on insights from stochastic control. Building on previous work, we introduce a viable model of actor-critic algorithm that incorporates both exploration and stochastic transitions. For single-hidden-layer neural networks, we show that the state of the environment can be formulated as a two time scale process: the environment time and the gradient time. Within this formulation, we characterize how the time-dependent random variables that represent the environment's state and estimate of the cumulative discounted return evolve over gradient steps in the infinite width limit of two-layer networks. Using the theory of stochastic differential equations, we derive, for the first time in continuous RL, an equation describing the infinitesimal change in the state distribution at each gradient step, under a vanishingly small learning rate. Overall, our work provides a novel nonparametric formulation for studying overparametrized neural actor-critic algorithms. We empirically corroborate our theoretical result using a toy continuous control task.
- Abstract(参考訳): 本稿では, 連続時間確率過程として問題をモデル化し, 確率制御からの洞察を生かして, 連続環境における深部強化学習(RL)の新たな理論的枠組みを提案する。
これまでの研究に基づいて,探索と確率遷移の両方を組み込んだアクター・クリティカル・アルゴリズムの実行可能なモデルを導入する。
単層ニューラルネットワークの場合、環境状態は環境時間と勾配時間という2つの時間スケールのプロセスで定式化できることを示す。
この定式化の中で、環境状態を表す時間依存確率変数と累積割引リターンの推定が、2層ネットワークの無限幅限界における勾配段階を超えてどのように進化するかを特徴付ける。
確率微分方程式の理論を用いて、連続 RL において、各勾配ステップにおける状態分布の無限小変化を記述する方程式を、消滅的に小さな学習率で導出した。
全体として、我々の研究は、過度にパラメータ化されたニューラルアクター批判アルゴリズムを研究するための新しい非パラメトリックな定式化を提供する。
我々は,おもちゃの連続制御タスクを用いて理論的結果を実証的に相関させる。
関連論文リスト
- Convergence of Stochastic Gradient Langevin Dynamics in the Lazy Training Regime [4.297070083645049]
継続的モデルは、ディープラーニングにおける最適化アルゴリズムのトレーニングダイナミクスに関する洞察を提供する。
我々は勾配ランゲヴィンダイナミクス(SGLD)の非漸近収束解析を確立する。
損失関数のヘシアン上の規則性条件下では、乗法および状態依存雑音を持つSGLDは、高い確率でトレーニング過程を通して非退化核を生成することを示す。
論文 参考訳(メタデータ) (2025-10-24T08:28:53Z) - Deep Learning for Continuous-time Stochastic Control with Jumps [0.688204255655161]
本研究では,ジャンプによる有限水平連続時間制御問題を解くためのモデルに基づくディープラーニング手法を提案する。
我々は2つのニューラルネットワークを反復的に訓練する: 1つは最適ポリシーを表現するもので、もう1つは値関数を近似するものである。
論文 参考訳(メタデータ) (2025-05-21T14:57:39Z) - Connecting NTK and NNGP: A Unified Theoretical Framework for Wide Neural Network Learning Dynamics [6.349503549199403]
我々は、ディープ・ワイド・ニューラルネットワークの学習プロセスのための包括的なフレームワークを提供する。
拡散相を特徴づけることで、私たちの研究は脳内の表現的ドリフトに光を当てます。
論文 参考訳(メタデータ) (2023-09-08T18:00:01Z) - Intensity Profile Projection: A Framework for Continuous-Time
Representation Learning for Dynamic Networks [50.2033914945157]
本稿では、連続時間動的ネットワークデータのための表現学習フレームワークIntensity Profile Projectionを提案する。
このフレームワークは3つの段階から構成される: 対の強度関数を推定し、強度再構成誤差の概念を最小化する射影を学習する。
さらに、推定軌跡の誤差を厳密に制御する推定理論を開発し、その表現がノイズに敏感な追従解析に利用できることを示す。
論文 参考訳(メタデータ) (2023-06-09T15:38:25Z) - Losing momentum in continuous-time stochastic optimisation [42.617042045455506]
運動量に基づく最適化アルゴリズムは 特に広まりました
本研究では、運動量を伴う勾配降下の連続時間モデルを解析する。
また、画像分類問題において畳み込みニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-09-08T10:46:05Z) - Semi-supervised Learning of Partial Differential Operators and Dynamical
Flows [68.77595310155365]
本稿では,超ネットワーク解法とフーリエニューラル演算子アーキテクチャを組み合わせた新しい手法を提案する。
本手法は, 1次元, 2次元, 3次元の非線形流体を含む様々な時間発展PDEを用いて実験を行った。
その結果、新しい手法は、監督点の時点における学習精度を向上し、任意の中間時間にその解を補間できることを示した。
論文 参考訳(メタデータ) (2022-07-28T19:59:14Z) - Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
論文 参考訳(メタデータ) (2021-12-27T06:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。