論文の概要: Convergence and stability of Q-learning in Hierarchical Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.17351v1
- Date: Fri, 21 Nov 2025 16:13:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.098312
- Title: Convergence and stability of Q-learning in Hierarchical Reinforcement Learning
- Title(参考訳): 階層型強化学習におけるQ-ラーニングの収束と安定性
- Authors: Massimiliano Manenti, Andrea Iannelli,
- Abstract要約: 本稿では,Fudal Q-learningスキームを提案する。
更新は、適切に定義されたゲームの平衡として解釈できる点に収束することを示す。
Feudal Q-learningアルゴリズムに基づく実験は、理論によって期待される結果をサポートする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical Reinforcement Learning promises, among other benefits, to efficiently capture and utilize the temporal structure of a decision-making problem and to enhance continual learning capabilities, but theoretical guarantees lag behind practice. In this paper, we propose a Feudal Q-learning scheme and investigate under which conditions its coupled updates converge and are stable. By leveraging the theory of Stochastic Approximation and the ODE method, we present a theorem stating the convergence and stability properties of Feudal Q-learning. This provides a principled convergence and stability analysis tailored to Feudal RL. Moreover, we show that the updates converge to a point that can be interpreted as an equilibrium of a suitably defined game, opening the door to game-theoretic approaches to Hierarchical RL. Lastly, experiments based on the Feudal Q-learning algorithm support the outcomes anticipated by theory.
- Abstract(参考訳): 階層強化学習(Hierarchical Reinforcement Learning)は、意思決定問題の時間的構造を効果的に捉え、活用し、継続的な学習能力を高めることを約束するが、理論的には実践の遅れを保証している。
本稿では、Fudal Q-learningスキームを提案し、その統合された更新がどの条件に収束し、安定しているかを考察する。
確率近似の理論とODE法を利用して、ファウダルQ-ラーニングの収束性と安定性を記述した定理を示す。
これは、Feudal RLに合わせた原則的収束と安定性解析を提供する。
さらに、更新は、適切に定義されたゲームの平衡として解釈できる点に収束し、階層的RLへのゲーム理論的アプローチへの扉を開くことを示す。
最後に、Fudal Q-learningアルゴリズムに基づく実験は、理論によって期待される結果を支持する。
関連論文リスト
- Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis [7.2620484413601325]
本研究では,動的学習速度およびバッチサイズスケジュール下での勾配降下運動量(SGDM)の収束挙動を解析した。
我々は既存の理論フレームワークを拡張し、ディープラーニングでよく使われる3つの実用的なスケジューリング戦略をカバーする。
一定のバッチサイズは期待されるノルムの収束を保証しないが、バッチサイズの増加は保証しておらず、同時にバッチサイズと学習率の増大は、確実に早く崩壊する。
論文 参考訳(メタデータ) (2025-08-05T05:32:36Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - Uncertainty quantification for Markov chain induced martingales with application to temporal difference learning [55.197497603087065]
線形関数近似を用いた時間差分学習アルゴリズムの性能解析を行った。
マルコフ連鎖によって誘導されるベクトル値マルティンタに対する新規で一般的な高次元濃度不等式とベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2025-02-19T15:33:55Z) - On the Convergence and Stability of Upside-Down Reinforcement Learning, Goal-Conditioned Supervised Learning, and Online Decision Transformers [25.880499561355904]
本稿は,表意的なアップサイドダウン強化学習,ゴール・コンディションド・スーパービジョン学習,オンライン決定変換器の収束と安定性を厳密に分析する。
論文 参考訳(メタデータ) (2025-02-08T19:26:22Z) - AI Explainability for Power Electronics: From a Lipschitz Continuity Perspective [2.2827888408068624]
本稿では,数学的説明可能性を評価するための一般的な枠組みを提案する。
推論安定性は入力摂動の下で一貫した出力を制御し、堅牢なリアルタイム制御と故障診断に必須である。
オーバーシュートと発振を緩和しながら収束を加速するリプシッツ対応学習率選択戦略を導入する。
論文 参考訳(メタデータ) (2025-01-17T04:20:43Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [55.80276145563105]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。
3つの理論的な貢献により、現在の最先端の成果が向上する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Q-Learning for Stochastic Control under General Information Structures
and Non-Markovian Environments [1.90365714903665]
反復に対する収束定理を提示し、特に一般の、おそらくは非マルコフ的環境下でのQ学習を反復する。
非マルコフ環境における様々な制御問題に対するこの定理の意義と応用について論じる。
論文 参考訳(メタデータ) (2023-10-31T19:53:16Z) - An Analysis of Quantile Temporal-Difference Learning [53.36758478669685]
量子時間差学習(QTD)は、強化学習の大規模応用において重要な要素であることが証明されている。
古典的なTD学習とは異なり、QTD更新は縮小写像を近似せず、非常に非線形であり、複数の固定点を持つ。
本稿では,確率 1 の動的プログラミング手順の関連ファミリの固定点への収束の証明である。
論文 参考訳(メタデータ) (2023-01-11T13:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。