論文の概要: Continuous-time q-learning for mean-field control with common noise, part-II: q-learning algorithms
- arxiv url: http://arxiv.org/abs/2604.27378v1
- Date: Thu, 30 Apr 2026 03:41:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.90936
- Title: Continuous-time q-learning for mean-field control with common noise, part-II: q-learning algorithms
- Title(参考訳): 共通雑音を考慮した平均場制御のための連続時間q-ラーニング(そのII:q-ラーニングアルゴリズム)
- Authors: Zhenjie Ren, Xiaoli Wei, Xiang Yu, Xun Yu Zhou,
- Abstract要約: さらに,一般雑音を制御した平均場制御のためのq-learningアルゴリズムを考案する。
改良されたIq関数に基づいてアクタステップでポリシーを更新するアクタ・クライブq-ラーニングアルゴリズムを提案する。
2つの例では、LQフレームワーク内外において、我々のq-learningアルゴリズムは良好な性能で実装されている。
- 参考スコア(独自算出の注目度): 7.003100820506273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is a continuation work of Ren et al. (2026) aiming to further devise q-learning algorithms for mean-field control (MFC) with controlled common noise. Based on the relaxed control formulation, we first establish the martingale condition of the value function and the Iq-function by evaluating along the conditional state distributions generated by all test policies. As the data in the relaxed control formulation are not observable in practice, we quantify the error incurred when they are replaced by the observable ones in the exploratory formulation under discretely sampled actions. This, together with a two-layer fixed point characterization of an optimal policy in Ren et al. (2026), allows us to propose several algorithms including the Actor-Critic q-learning algorithm, in which the policy is updated in the Actor-step based on the iteration rule induced by the improved Iq-function, and the value function and Iq-function are updated in the Critic-step based on the martingale orthogonality condition using the data from the exploratory formulation. We also establish the convergence of the inner iterations in the Actor-step in an infinite-horizon linear quadratic (LQ) framework. In two examples, within and beyond LQ framework, our q-learning algorithms are implemented with satisfactory performance.
- Abstract(参考訳): 本稿では、平均場制御(MFC)のためのQ-ラーニングアルゴリズムをさらに考案することを目的としたRen et al(2026)の継続作業である。
緩和制御の定式化に基づいて、まず、全てのテストポリシによって生成される条件状態分布に沿って評価することにより、値関数とIq関数のマーチンゲール条件を確立する。
緩和制御の定式化におけるデータは実際には観測不可能であるため、個別にサンプリングされた動作下での探索的定式化において、観測可能な定式化に置き換えた際の誤差を定量化する。
これにより、Ren et al (2026) における最適ポリシーの2層固定点評価とともに、改良されたIq関数によって誘導される反復規則に基づいて、アクターステップでポリシーを更新し、探索式からのデータを用いて、マルティンゲール直交条件に基づいて、値関数とIq関数をクリティックステップで更新するアクター-Critic q-learningアルゴリズムを含む、いくつかのアルゴリズムを提案することができる。
また、無限水平線型二次(LQ)フレームワークにおいて、アクターステップの内部反復の収束を確立する。
2つの例では、LQフレームワーク内外において、我々のq-learningアルゴリズムは良好な性能で実装されている。
関連論文リスト
- Continuous-time q-learning for mean-field control problems [4.3715546759412325]
我々は最近,Jia と Zhou (2023) による Q-learning の連続時間版として作られた q-learning を,Mckean-Vlasov 制御問題に対して検討した。
2つのq-函数が全てのテストポリシーの下で積分表現によって関連していることが示される。
弱いマーチンゲール条件とテストポリシーの探索法に基づいて,いくつかのモデルフリー学習アルゴリズムを考案した。
論文 参考訳(メタデータ) (2023-06-28T13:43:46Z) - Hierarchical Phrase-based Sequence-to-Sequence Learning [94.10257313923478]
本稿では、学習中の帰納バイアスの源として階層的フレーズを取り入れ、推論中の明示的な制約として、標準的なシーケンス・ツー・シーケンス(seq2seq)モデルの柔軟性を維持するニューラルトランスデューサについて述べる。
本手法では,木が原文と対象句を階層的に整列するブラケット文法に基づく識別的導出法と,整列した句を1対1で翻訳するニューラルネットワークセク2セックモデルという2つのモデルを訓練する。
論文 参考訳(メタデータ) (2022-11-15T05:22:40Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - q-Learning in Continuous Time [11.694169299062597]
エントロピー規則化探索拡散過程の定式化による強化学習(RL)におけるQ-ラーニングの連続的対応について検討した。
我々は、時間離散化とは無関係なq-函数に関するq-ラーニング理論を開発する。
我々は、根底にある問題を解決するために、異なるアクター批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2022-07-02T02:20:41Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。