論文の概要: Fast Convergence of Policy Regret in Learning Stochastic Optimal Control
- arxiv url: http://arxiv.org/abs/2605.26361v1
- Date: Mon, 25 May 2026 22:07:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.487602
- Title: Fast Convergence of Policy Regret in Learning Stochastic Optimal Control
- Title(参考訳): 確率的最適制御学習におけるポリシーレグレストの高速収束
- Authors: Shengbo Wang, Jose Blanchet, Peter Glynn,
- Abstract要約: 最適制御における政策学習, 最適作用値関数$Q*$の推定によって引き起こされる欲求政策について検討する。
連続作用空間において、高速ポリシー学習は、成長指数$p$、マージン質量指数$m$、行動ワイド正規性指数$q$の3つの幾何学構造によって誘導されることを示す。
- 参考スコア(独自算出の注目度): 7.896895563709477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy learning in modern operations environments faces a fundamental tension between limited operational data and the large, often continuous, state and action spaces over which good decisions must be identified and deployed. We study value-based policy learning in stochastic optimal control: a greedy policy induced by an estimate of the optimal action-value function $Q^*$ is deployed, and its performance is measured by regret. The empirical success of this approach calls for statistical insight into the structures that enable fast regret convergence. We show that, in continuous action spaces, fast policy learning is induced by three geometric structures: a growth exponent $p$, which quantifies how quickly $Q^*$ separates suboptimal actions from its maximizers; a margin-mass exponent $m$, which controls how much deployment mass lies on states with weak growth; and an action-wise regularity exponent $q$, which measures the smoothness of the $Q^*$-estimation error across actions. Given a $n^{-1/2}$-accurate estimator of $Q^*$, we show that the minimax-optimal policy regret convergence rate is \[ \widetildeΘ\left( n^{-\min\left\{\frac{p}{2(p-q)},\frac{m+1}{2m}\right\}} \right), \] up to a logarithmic factor at the boundary between the two regimes. The exponent $q$ is crucial: $q>0$ yields faster-than-$n^{-1/2}$ regret. This regime is natural in operations applications. In particular, we verify $q>0$ under mild regularity conditions in dynamic inventory control and service allocation examples, while the mechanism underlying this fast rate regime extends beyond these settings.
- Abstract(参考訳): 現代の運用環境における政策学習は、限られた運用データと、適切な決定を識別し、デプロイしなければならない大規模な、しばしば連続的な状態と行動空間の間に、根本的な緊張に直面します。
確率的最適制御における価値に基づく政策学習について検討し、最適作用値関数$Q^*$の見積によって引き起こされる欲求的ポリシーをデプロイし、その性能を後悔によって測定する。
このアプローチの実証的な成功は、迅速な後悔の収束を可能にする構造に関する統計的洞察を呼び起こす。
連続的な行動空間において、高速な政策学習は、3つの幾何学的構造によって誘導される: 成長指数$p$は、その最大値からどのくらいの速さで最適化されたアクションを分離するかを定量化すること、マージン質量指数$m$は、弱い成長状態にある状態にどれだけの展開質量がかかっているかを制御すること、アクションワイド正規性指数$q$は、アクション間のQ^*$推定誤差の滑らかさを測定する。
Q^*$ の $n^{-1/2}$-正確な推定器が与えられたとき、最小極最適化ポリシーのリフレッシュ収束率は \[ \widetilde\left(n^{-\min\left\{\frac{p}{2(p-q)},\frac{m+1}{2m}\right\right) であることが示される。
指数$q$は必須である:$q>0$ yields faster-than-$n^{-1/2}$ regret。
この体制は、オペレーションの応用において自然である。
特に、動的在庫管理やサービス割り当ての例において、緩やかな規則性条件下で$q>0$を検証する一方、この高速化体制の基盤となるメカニズムは、これらの設定を超えて拡張される。
関連論文リスト
- Reinforcement Learning in a Birth and Death Process: Breaking the
Dependence on the State Space [0.0]
我々は、出生・死亡構造を有するMDPにおける未報告の強化学習の後悔を再考する。
本研究の結果から,従来の学習アルゴリズム sc Ucrl2 のやや遅れたバージョンに対する後悔は,実際には $tildemathcalO(sqrtEAT)$ で表される。
論文 参考訳(メタデータ) (2023-02-21T13:28:37Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Minimal Expected Regret in Linear Quadratic Control [79.81807680370677]
オンライン学習アルゴリズムを考案し、その期待された後悔を保証します。
当時のこの後悔は、$A$と$B$が未知の場合、$widetildeO((d_u+d_x)sqrtd_xT)$によって上界(i)となる。
論文 参考訳(メタデータ) (2021-09-29T14:07:21Z) - Implicitly Regularized RL with Implicit Q-Values [42.87920755961722]
Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。
対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。
我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
論文 参考訳(メタデータ) (2021-08-16T12:20:47Z) - Stochastic Shortest Path: Minimax, Parameter-Free and Towards
Horizon-Free Regret [144.6358229217845]
エージェントが目標状態に到達する前に蓄積される期待コストを最小限に抑えるために,最短経路(ssp)設定で学習する問題について検討する。
我々は,経験的遷移を慎重に歪曲し,探索ボーナスで経験的コストを摂動する新しいモデルベースアルゴリズムEB-SSPを設計する。
私達はEB-SSPが$widetildeO(B_star sqrtS A K)$のミニマックスの後悔率を達成することを証明します。
論文 参考訳(メタデータ) (2021-04-22T17:20:48Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Fast Rates for the Regret of Offline Reinforcement Learning [69.23654172273085]
無限水平割引決定プロセス(MDP)における固定行動ポリシーによって生成されたオフラインデータからの強化学習の後悔について検討する。
最適品質関数 $Q*$ に対する任意の推定が与えられたとき、定義するポリシーの後悔は、$Q*$-estimate の点収束率の指数によって与えられる速度で収束することを示す。
論文 参考訳(メタデータ) (2021-01-31T16:17:56Z) - Finite Continuum-Armed Bandits [0.0]
エージェントが$T$Ressourcesを持ち、より多くのアクションに割り当てる状況を考える。
エージェントの目標は、彼女の累積報酬を最大化することです。
論文 参考訳(メタデータ) (2020-10-23T08:48:45Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。