論文の概要: Rethinking Thinking Tokens: LLMs as Improvement Operators
- arxiv url: http://arxiv.org/abs/2510.01123v1
- Date: Wed, 01 Oct 2025 17:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.685107
- Title: Rethinking Thinking Tokens: LLMs as Improvement Operators
- Title(参考訳): 思考トークンを再考する - 改善オペレータとしてのLLM
- Authors: Lovish Madaan, Aniket Didolkar, Suchin Gururangan, John Quan, Ruan Silva, Ruslan Salakhutdinov, Manzil Zaheer, Sanjeev Arora, Anirudh Goyal,
- Abstract要約: 推論トレーニングは、LLMに長い思考の連鎖(長いCoT)を生み出す動機を与え、自己チェックによるソリューション戦略を探索することを可能にする。
これにより、精度が高くなりますが、コンテキストの長さ、トークン/計算コスト、応答レイテンシが膨らみます。
現在のモデルはメタ認知を活用して、このParetoフロンティアで他の組み合わせを提供できるのでしょうか?
i) 多様なドラフトを並列に生成し、(ii) それらを有界なテキストワークスペースに蒸留し、(iii) このワークスペース上に条件付き精製する。
- 参考スコア(独自算出の注目度): 80.12087211785949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning training incentivizes LLMs to produce long chains of thought (long CoT), which among other things, allows them to explore solution strategies with self-checking. This results in higher accuracy, but inflates context length, token/compute cost, and answer latency. We ask: Can current models leverage their metacognition to provide other combinations on this Pareto frontier, e.g., better accuracy with lower context length and/or latency? Abstractly, we view the model as an improvement operator on its own "thoughts" with a continuum of possible strategies. We identify an interesting inference family Parallel-Distill-Refine (PDR), which performs the following: (i) generate diverse drafts in parallel; (ii) distill them into a bounded, textual workspace; and (iii) refine conditioned on this workspace, producing an output that seeds the next round. Importantly, context length (hence compute cost) is controllable via degree of parallelism, and is no longer conflated with the total number of generated tokens. We report PDR instantiations of current models that give better accuracy than long CoT while incurring lower latency. Setting degree of parallelism to 1 yields an interesting subcase, Sequential Refinement (SR) (iteratively improve a single candidate answer) which provides performance superior to long CoT. Success of such model orchestrations raises the question whether further training could shift the Pareto frontier. To this end, we train an 8B thinking model with Reinforcement Learning (RL) to make it consistent with PDR as the inference method. On math tasks with verifiable answers, iterative pipelines surpass single-pass baselines at matched sequential budgets, with PDR delivering the largest gains (e.g., +11% on AIME 2024 and +9% on AIME 2025).
- Abstract(参考訳): 推論トレーニングは、LLMに長い思考の連鎖(長いCoT)を生み出すインセンティブを与えます。
これにより、精度が高くなりますが、コンテキストの長さ、トークン/計算コスト、応答レイテンシが膨らみます。
現在のモデルはメタ認知を利用して,このParetoフロンティア上で他の組み合わせを提供することができるのでしょうか?
抽象的には、我々はモデルを、可能な戦略の連続体を伴って、独自の「思考」における改善演算子と見なしている。
以下に示すように、PDR(Parallel-Distill-Refine)の興味深い推論ファミリを同定する。
(i)多種多様な草稿を並行して作成すること。
(二)有界テキストワークスペースに蒸留し、
三 この作業空間を精錬し、次ラウンドで種を種とする出力を生成すること。
重要なことに、コンテクスト長(計算コスト)は並列性の程度で制御可能であり、生成したトークンの総数と混同されなくなる。
レイテンシを低くしながら,CoTよりも精度の高い現行モデルのPDRインスタンス化を報告する。
並列性の度合いを 1 に設定すると、興味深いサブケースであるSequential Refinement (SR) が得られ、長い CoT よりも優れたパフォーマンスを提供する。
このようなモデルオーケストレーションの成功は、さらなるトレーニングがParetoフロンティアをシフトできるかどうかという疑問を提起する。
そこで本研究では,Reinforcement Learning (RL) を用いた8B思考モデルを構築し,PDRを推論手法として整合させる。
検証可能な回答を持つ数学タスクでは、反復パイプラインが整合した逐次予算でシングルパスベースラインを超え、PDRは最大のゲイン(例えば、AIME 2024では+11%、AIME 2025では+9%)を提供する。
関連論文リスト
- Parallel-R1: Towards Parallel Thinking via Reinforcement Learning [65.68667585027232]
並列思考は、大規模言語モデルの推論能力を高めるための新しいアプローチである。
並列思考行動を可能にする最初の強化学習フレームワークである textbfParallel-R1 を提案する。
本フレームワークでは,並列思考のトレーニングにおいて,コールドスタート問題に明示的に対処する漸進的なカリキュラムを採用している。
論文 参考訳(メタデータ) (2025-09-09T17:59:35Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。
そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-28T17:47:32Z) - On Effective Parallelization of Monte Carlo Tree Search [51.15940034629022]
モンテカルロ木探索(MCTS)は、探索木を構築するためにかなりの数のロールアウトを必要とするため、計算コストがかかる。
効果的な並列MCTSアルゴリズムを設計する方法は、体系的に研究されておらず、まだよく分かっていない。
我々は,より効率的な並列MCTSアルゴリズムの設計に,提案する必要条件をどのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-15T21:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。