論文の概要: LoopRPT: Reinforcement Pre-Training for Looped Language Models
- arxiv url: http://arxiv.org/abs/2603.19714v1
- Date: Fri, 20 Mar 2026 07:35:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.043631
- Title: LoopRPT: Reinforcement Pre-Training for Looped Language Models
- Title(参考訳): LoopRPT: ループ言語モデルの強化事前トレーニング
- Authors: Guo Tang, Shixin Jiang, Heng Chang, Nuo Chen, Yuhan Li, Huiming Fan, Jia Li, Ming Liu, Bing Qin,
- Abstract要約: LoopRPTはLoopLM用に設計された強化事前トレーニングフレームワークである。
複数のモデルスケールでOuroアーキテクチャ上でLoopRPTをインスタンス化する。
その結果、LoopRPTはステップごとの表現品質を一貫して改善することを示した。
- 参考スコア(独自算出の注目度): 40.95348011001987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Looped language models (LoopLMs) perform iterative latent computation to refine internal representations, offering a promising alternative to explicit chain-of-thought (CoT) reasoning. However, existing reinforcement learning (RL) paradigms primarily target output tokens, creating a structural mismatch with looped architectures whose reasoning unfolds implicitly. In this work, we propose LoopRPT, a reinforcement pre-training framework tailored for LoopLMs. By reframing next-token prediction as a next-token reasoning task, LoopRPT assigns reinforcement signals directly to latent steps using an EMA teacher reference and noisy latent rollouts. This formulation enables RL to directly shape intermediate representations, compressing effective reasoning into fewer iterations. We instantiate LoopRPT on the Ouro architecture across multiple model scales. Results demonstrate that LoopRPT consistently improves per-step representation quality, achieving Pareto dominance in accuracy-computation trade-offs. Notably, significant gains on hard tokens indicate that LoopRPT enhances early-stage reasoning rather than merely encouraging premature exits. Our findings highlight reinforcement pre-training as a principled paradigm for learning efficient latent reasoning in LoopLMs.
- Abstract(参考訳): ループ言語モデル(LoopLM)は、内部表現を洗練するために反復潜在計算を行い、明示的なチェーン・オブ・シークレット(CoT)推論に代わる有望な代替手段を提供する。
しかし、既存の強化学習(RL)パラダイムは主に出力トークンをターゲットにしており、ループアーキテクチャによる構造的ミスマッチが暗黙的に展開される。
そこで本研究では,LoopLMに適した強化事前学習フレームワークであるLoopRPTを提案する。
次点予測を次点推論タスクとすることで、LoopRPTは、EMAの教師参照とノイズの多い潜伏ロールアウトを使用して、遅延ステップに直接強化信号を割り当てる。
この定式化により、RLは中間表現を直接形成することができ、効果的な推論をより少ないイテレーションに圧縮することができる。
複数のモデルスケールでOuroアーキテクチャ上でLoopRPTをインスタンス化する。
その結果、LoopRPTはステップごとの表現品質を一貫して改善し、精度計算トレードオフにおけるPareto優位性を実現している。
特に、ハードトークンの顕著な増加は、LoopRPTが単に早期の終了を奨励するのではなく、早期の推論を強化することを示している。
本研究は,LoopLMにおける遅延推論学習のパラダイムとして,強化事前学習に注目した。
関連論文リスト
- DiffuReason: Bridging Latent Reasoning and Generative Refinement for Sequential Recommendation [20.756497463882763]
逐次レコメンデーションのための統合された「シンク・テン・ディフューズ」フレームワークであるDiffuReasonを提案する。
潜時推論のための多段階思考トークン、中間表現をデノナイズするための拡散ベースの洗練、およびエンドツーエンドのグループ相対ポリシー最適化を統合している。
4つのベンチマークの実験では、DiffuReasonはさまざまなバックボーンアーキテクチャを一貫して改善している。
論文 参考訳(メタデータ) (2026-02-10T12:55:30Z) - Well Begun, Half Done: Reinforcement Learning with Prefix Optimization for LLM Reasoning [18.477056077256233]
RLVRによる強化学習は大規模言語モデル(LLM)の推論能力を大幅に向上させる
現在のRLVRアプローチは、通常、生成されたトークンをまたいでトレーニングを行うが、どのトークン(例えばプレフィックストークン)が実際に推論に寄与するかを調査することは無視される。
本稿では,POP(Progressive Prefix-token Policy Optimization)と呼ばれる新しいRLVR手法を提案する。
論文 参考訳(メタデータ) (2025-12-17T10:26:11Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization [66.82303841930752]
拡散言語モデル (DLMs) は従来の自己回帰型大規模言語モデル (LLMs) に代わる有望な選択肢を提供する。
DLMは、特にデノナイジングステップの数が減少するにつれて、LLMよりも遅れている。
本稿では,マルチリワード最適化 (MRO) 手法を提案する。
論文 参考訳(メタデータ) (2025-10-24T13:57:59Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - SCOUT: Teaching Pre-trained Language Models to Enhance Reasoning via Flow Chain-of-Thought [37.53215651690168]
思考の連鎖(CoT)は、ステップ思考を奨励することで、大きな言語モデル(LLM)の推論性能を向上させる。
有望ではあるが、CoTベースのアプローチは、しばしばコストのかかる事前トレーニングを必要とし、推論の進化に関する原則的なフレームワークを欠いている。
プリトレーニングを必要とせずにFlow CoTスタイルの推論を可能にする軽量な微調整フレームワークSCOUTを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:43:24Z) - Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning [10.255235456427037]
大規模言語モデル(LLM)における簡潔推論を実現するための簡易かつ効果的な2段階強化学習フレームワークを提案する。
最初の段階は、より多くのトレーニングステップを使用して、グループ相対ポリシー最適化を通じてモデルの推論能力をインセンティブ化することを目的としています。
第2段階は、より少ないトレーニングステップを使用して、簡潔さを明示的に実施し、Longth-aware Group Relative Policy Optimizationを通じて効率を向上させる。
論文 参考訳(メタデータ) (2025-05-27T13:29:51Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。