論文の概要: Scaling Latent Reasoning via Looped Language Models
- arxiv url: http://arxiv.org/abs/2510.25741v1
- Date: Wed, 29 Oct 2025 17:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.896062
- Title: Scaling Latent Reasoning via Looped Language Models
- Title(参考訳): ループ言語モデルによる潜時推論のスケーリング
- Authors: Rui-Jie Zhu, Zixuan Wang, Kai Hua, Tianyu Zhang, Ziniu Li, Haoran Que, Boyi Wei, Zixin Wen, Fan Yin, He Xing, Lu Li, Jiajun Shi, Kaijing Ma, Shanda Li, Taylor Kergan, Andrew Smith, Xingwei Qu, Mude Hui, Bohong Wu, Qiyang Min, Hongzhi Huang, Xun Zhou, Wei Ye, Jiaheng Liu, Jian Yang, Yunfeng Shi, Chenghua Lin, Enduo Zhao, Tianle Cai, Ge Zhang, Wenhao Huang, Yoshua Bengio, Jason Eshraghian,
- Abstract要約: 事前学習されたループ言語モデル(LoopLM)のファミリーであるOuroを提示し、オープンソース化する。
Ouro は (i) 潜時空間における反復計算, (ii) 学習深度割り当てのためのエントロピー規則化された目的, (iii) 7.7T トークンへのスケーリングによる事前学習段階への推論を構築する。
- 参考スコア(独自算出の注目度): 109.64154923739842
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern LLMs are trained to "think" primarily via explicit text generation, such as chain-of-thought (CoT), which defers reasoning to post-training and under-leverages pre-training data. We present and open-source Ouro, named after the recursive Ouroboros, a family of pre-trained Looped Language Models (LoopLM) that instead build reasoning into the pre-training phase through (i) iterative computation in latent space, (ii) an entropy-regularized objective for learned depth allocation, and (iii) scaling to 7.7T tokens. Ouro 1.4B and 2.6B models enjoy superior performance that match the results of up to 12B SOTA LLMs across a wide range of benchmarks. Through controlled experiments, we show this advantage stems not from increased knowledge capacity, but from superior knowledge manipulation capabilities. We also show that LoopLM yields reasoning traces more aligned with final outputs than explicit CoT. We hope our results show the potential of LoopLM as a novel scaling direction in the reasoning era. Our model could be found in: http://ouro-llm.github.io.
- Abstract(参考訳): 現代のLLMは、例えばチェーン・オブ・シント(CoT)のような明示的なテキスト生成を通じて「思考」を行うように訓練されている。
We present and open source Ouro, named to the recursive Ouroboros, a family of pre-trained Looped Language Models (LoopLM) which build reasoning through the pre-training phase through
(i)潜在空間における反復計算
二 学習深度配分のためのエントロピー規則化された目的、及び
(iii)7.7Tトークンへのスケーリング。
Ouro 1.4Bと2.6Bは、幅広いベンチマークで最大12B SOTA LLMの結果に匹敵する優れた性能を享受している。
制御された実験を通して、この利点は知識能力の向上ではなく、優れた知識操作能力から生じるものであることを示す。
また、LoopLMは、明示的なCoTよりも最終的な出力と整合した推論トレースが得られることを示す。
この結果から,LoopLMが推理時代に新たなスケーリングの方向性を示すことが期待できる。
私たちのモデルは以下の通りです。
関連論文リスト
- e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs [49.01449646799905]
既存の推論モデルでは外挿がうまく行われていないことが示される。
レシピ e3 は AIME'25 と HMMT'25 のスコアに基づいて最もよく知られた 1.7B モデルを生成する。
e3-1.7Bモデルは、高いpass@1スコアを得るだけでなく、ベースモデルよりもpass@kを改善する。
論文 参考訳(メタデータ) (2025-06-10T17:52:42Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Self-Explore: Enhancing Mathematical Reasoning in Language Models with Fine-grained Rewards [42.065997425172974]
大規模言語モデル(LLM)の推論能力向上には,大量の論理学(CoTファインチューニング)の訓練が有効である。
本稿では,LLMが論理学における最初の間違ったステップを探索し,より詳細な報奨などの信号を用いてさらなる改善を行うセルフエクスロアを提案する。
GSM8KとMATHテストセットでは、教師付き微調整(SFT)と比較して平均11.57%と2.89%の改善を達成した。
論文 参考訳(メタデータ) (2024-04-16T07:30:11Z) - BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs'
Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。
具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。
次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文 参考訳(メタデータ) (2023-10-25T23:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。