論文の概要: Towards Formalizing Reinforcement Learning Theory
- arxiv url: http://arxiv.org/abs/2511.03618v1
- Date: Wed, 05 Nov 2025 16:35:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.488654
- Title: Towards Formalizing Reinforcement Learning Theory
- Title(参考訳): 強化学習理論の定式化に向けて
- Authors: Shangtong Zhang,
- Abstract要約: マルコフサンプルを用いて,Q$学習と線形時間差(TD)学習のほぼ確実な収束を定式化する。
この研究は、収束RL結果を完全形式化するための重要なステップとなる。
- 参考スコア(独自算出の注目度): 21.93657660333281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we formalize the almost sure convergence of $Q$-learning and linear temporal difference (TD) learning with Markovian samples using the Lean 4 theorem prover based on the Mathlib library. $Q$-learning and linear TD are among the earliest and most influential reinforcement learning (RL) algorithms. The investigation of their convergence properties is not only a major research topic during the early development of the RL field but also receives increasing attention nowadays. This paper formally verifies their almost sure convergence in a unified framework based on the Robbins-Siegmund theorem. The framework developed in this work can be easily extended to convergence rates and other modes of convergence. This work thus makes an important step towards fully formalizing convergent RL results. The code is available at https://github.com/ShangtongZhang/rl-theory-in-lean.
- Abstract(参考訳): 本稿では,MathlibライブラリをベースとしたLean 4定理証明器を用いてマルコフサンプルを用いて,Q$学習と線形時間差(TD)学習のほぼ確実に収束を定式化する。
Q$-learningと線形TDは、最も早く、最も影響力のある強化学習(RL)アルゴリズムの一つである。
収束特性の調査は、RL分野の初期開発における主要な研究テーマであるだけでなく、近年の注目度も高まっている。
この論文は、ロビンス=ジークムントの定理に基づく統一的枠組みにおけるそれらのほぼ確実な収束を正式に検証する。
この研究で開発されたフレームワークは、収束率や他の収束モードに容易に拡張できる。
したがって、この研究は収束RLの結果を完全に形式化するための重要なステップとなる。
コードはhttps://github.com/ShangtongZhang/rl-theory-in-lean.comで公開されている。
関連論文リスト
- Extensions of Robbins-Siegmund Theorem with Applications in Reinforcement Learning [19.81737958703724]
我々は、零次項が和可能ではなく、平方和可能であるような、ほとんど超行列に対してロビンス=ジークムントの定理を拡張する。
線形関数を持つ$Qp$学習に対する最初のほぼ確実な収束率、最初の高確率集中束縛、および最初の$Lp$収束率を得る。
論文 参考訳(メタデータ) (2025-09-30T16:00:36Z) - Parallel-R1: Towards Parallel Thinking via Reinforcement Learning [65.68667585027232]
並列思考は、大規模言語モデルの推論能力を高めるための新しいアプローチである。
並列思考行動を可能にする最初の強化学習フレームワークである textbfParallel-R1 を提案する。
本フレームワークでは,並列思考のトレーニングにおいて,コールドスタート問題に明示的に対処する漸進的なカリキュラムを採用している。
論文 参考訳(メタデータ) (2025-09-09T17:59:35Z) - Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM Step-Provers [16.135928990655422]
本稿では,2つのスケーリング問題に対処するシステムである textttBFS-Prover-V2 を紹介する。
1つ目は、トレーニング時にLLMのステッププロデューサの性能を継続的に改善する、新しいマルチターンオフポリチフレームワークである。
第二のイノベーションは、推論時に推論能力を拡大するプランナーによるマルチエージェント検索アーキテクチャである。
論文 参考訳(メタデータ) (2025-09-08T09:54:18Z) - Convergence Analysis of Aggregation-Broadcast in LoRA-enabled Distributed Fine-Tuning [4.255739817172272]
フェデレートラーニング(FL)は、分散データソース間の協調モデルトレーニングを可能にする。
Low-Rank Adaptation (LoRA) は効率的な微調整法としてFLに導入された。
LoRAに更新されたローカルモデルをサーバに集約する方法は、依然として重要かつ未検討の課題である。
論文 参考訳(メタデータ) (2025-08-02T12:54:17Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - Branching Reinforcement Learning [16.437993672422955]
分岐強化学習(ブランチングRL)モデルを提案する。
本稿では,Regret Minimization(RM)とReward-Free Exploration(RFE)の指標について検討する。
このモデルは階層的なレコメンデーションシステムやオンライン広告に重要な応用を見出す。
論文 参考訳(メタデータ) (2022-02-16T11:19:03Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。