論文の概要: Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States
- arxiv url: http://arxiv.org/abs/2603.19987v1
- Date: Fri, 20 Mar 2026 14:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.182384
- Title: Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States
- Title(参考訳): マルコフ状態の再導入によるLCM後処理の能力低下
- Authors: Yurun Yuan, Tengyang Xie,
- Abstract要約: マルコフ状態の導入は、標準RLポストトレーニングの性能境界を一貫して破っていることを示す。
この結果から, 構造化マルコフ表現を優先して「歴史・国家」モデリングを超えて移動することが, オープン・エンド・ディスカバリーの解放に不可欠であることが示唆された。
- 参考スコア(独自算出の注目度): 9.28337656721443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become a standard paradigm for post-training and aligning Large Language Models (LLMs), yet recent evidence suggests it faces a persistent "capability ceiling": unlike classical RL systems that discover novel strategies, RL for LLMs often acts as a mere refiner of patterns already latent in pre-trained weights. In this work, we identify a fundamental structural bottleneck: while classical RL relies on compact, informative Markov states, current LLM post-training formulations are tethered to an ever-expanding history of actions. We revisit a classical principle long central to RL yet absent from LLM post-training: explicit Markov states. Theoretically, we provide rigorous guarantees demonstrating that leveraging estimated Markov states can significantly reduce sample complexity. Empirically, we show that introducing Markov states consistently breaks the performance boundaries of standard RL post-training across a suite of complex logic puzzles. Our findings suggest that moving beyond "history-as-state" modeling in favor of structured Markovian representations is essential for unlocking open-ended discovery and genuinely new reasoning capabilities in Generative AI.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の訓練後整合化のための標準パラダイムとなっているが、近年の証拠は、新しい戦略を発見する古典的なRLシステムとは異なり、LLMのRLは、既にトレーニング済みの重み付けに潜んでいるパターンの単なる精細化として機能する。
古典的RLはコンパクトで情報に富むマルコフ状態に依存しているのに対し、現在のLLMのポストトレーニング定式化は、継続する行動の歴史に結びついている。
我々は、LL中心の古典的原理を再考するが、LLM後訓練を欠いている:明示的なマルコフ状態。
理論的には、推定マルコフ状態の活用がサンプルの複雑さを大幅に減少させることを示す厳密な保証を提供する。
経験的に、マルコフ状態の導入は、複雑な論理パズルの集合をまたいだ学習後の標準RLの性能境界を一貫して破ることを示す。
我々の研究結果は、構造化マルコフ表現を支持するために「ヒストリー・アズ・ステート」(history-as-state)モデリングを超えて移行することが、ジェネレーティブAIにおけるオープンエンドな発見と真に新しい推論能力の解放に不可欠であることを示唆している。
関連論文リスト
- Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs? [92.4931695205957]
DELTA-Codeは、学習可能性と伝達可能性という2つの基本的な側面を探索するために設計された、合成符号問題ファミリーのベンチマークである。
実験の結果, ほぼゼロ報酬の期間が延長された後, RL訓練モデルが突然, ほぼ完全な精度に上昇した。
従来未解決であった問題ファミリの学習性を確保するため,深い報酬を伴うウォームアップ,経験リプレイ,カリキュラムトレーニング,ループ内検証などの重要なトレーニング項目を探索する。
論文 参考訳(メタデータ) (2025-09-25T11:20:56Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Metis-RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning [20.515599491717442]
マルチモーダル推論モデル学習のためのtextbfMetis-RISE (textbfRL textbfSFT textbfEnhances) を提案する。
論文 参考訳(メタデータ) (2025-06-16T02:56:13Z) - Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。
我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文 参考訳(メタデータ) (2025-05-26T22:51:00Z) - RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs [14.78605805191225]
近年,大規模言語モデル(LLM)の強化学習に基づくポストトレーニングが注目されている。
これらの手法の基礎となる定式化と仮定を批判的に検討する。
論文 参考訳(メタデータ) (2025-05-19T19:57:15Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Can LLMs predict the convergence of Stochastic Gradient Descent? [5.206475868803433]
大規模なランダム化モデルは、様々なタスクにまたがる優れたパフォーマンスで有名です。
このような驚くべきパフォーマンスの1つの驚くべき例は、マルコフシステムの原則を満たす、最近特定されたタスクである。
論文 参考訳(メタデータ) (2024-08-03T10:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。