論文の概要: SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models
- arxiv url: http://arxiv.org/abs/2506.05745v1
- Date: Fri, 06 Jun 2025 05:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.323157
- Title: SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models
- Title(参考訳): SPRINT:推論モデルにおけるインターリーブ計画と並列実行の実現
- Authors: Emil Biju, Shayan Talaei, Zhemin Huang, Mohammadreza Pourreza, Azalia Mirhoseini, Amin Saberi,
- Abstract要約: 大きな推論モデルは複雑な推論タスクでは優れているが、典型的には長いシーケンシャル連鎖を生成する。
SPRINTは、LRMが並列化の機会を動的に識別し活用できるようにするために設計された、新しいトレーニング後および推論時フレームワークである。
本研究では,SPRINTフレームワークで微調整されたモデルが,数学などの複雑な領域における推論モデルの性能と一致することを示す。
- 参考スコア(独自算出の注目度): 2.7645012830234
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large reasoning models (LRMs) excel at complex reasoning tasks but typically generate lengthy sequential chains-of-thought, resulting in long inference times before arriving at the final answer. To address this challenge, we introduce SPRINT, a novel post-training and inference-time framework designed to enable LRMs to dynamically identify and exploit opportunities for parallelization during their reasoning process. SPRINT incorporates an innovative data curation pipeline that reorganizes natural language reasoning trajectories into structured rounds of long-horizon planning and parallel execution. By fine-tuning LRMs on a small amount of such curated data, the models learn to dynamically identify independent subtasks within extended reasoning processes and effectively execute them in parallel. Through extensive evaluations, we show that the models fine-tuned with the SPRINT framework match the performance of reasoning models on complex domains such as mathematics while generating up to ~39% fewer sequential tokens on problems requiring more than 8000 output tokens. Finally, we observe consistent results transferred to two out-of-distribution tasks of GPQA and Countdown with up to 45% and 65% reduction in average sequential tokens for longer reasoning trajectories, while achieving the performance of the fine-tuned reasoning model.
- Abstract(参考訳): 大きな推論モデル(LRMs)は複雑な推論タスクでは優れるが、典型的には長いシーケンシャルな連鎖を生成するため、最終的な答えに到達するまでに長い推論時間がかかる。
この課題に対処するために、我々は、LEMが推論プロセス中に並列化の機会を動的に識別し、活用できるように設計された新しいポストトレーニングおよび推論時フレームワークであるSPRINTを紹介した。
SPRINTは、自然言語推論の軌道を長期計画と並列実行の構造化ラウンドに再編成する革新的なデータキュレーションパイプラインを組み込んでいる。
少量のキュレートされたデータに対してLEMを微調整することにより、モデルは拡張された推論プロセス内で独立サブタスクを動的に識別し、それらを効果的に並列に実行する。
本研究では,SPRINTフレームワークにより微調整されたモデルが,数学などの複雑な領域における推論モデルの性能と一致し,8000以上の出力トークンを必要とする問題に対して最大39%のシーケンシャルトークンを生成することを示す。
最後に,GPQAとCountdownの2つのアウト・オブ・ディストリビューションタスクに対して,より長い推論軌道に対して平均シーケンシャルトークンを最大45%,65%削減し,微調整された推論モデルの性能を実現した。
関連論文リスト
- TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression [75.81611837629764]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - Saliency-driven Dynamic Token Pruning for Large Language Models [32.903622070917194]
塩分駆動型動的トケンプルーニング(SDTP)
軽量なサリエンシ駆動予測モジュールは、各トークンの重要度をその隠れ状態で推定するように設計されている。
ランキングに基づく最適化手法を提案し,評価スコアと予測重要スコアのランキングばらつきを最小化する。
論文 参考訳(メタデータ) (2025-04-06T15:15:07Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [33.547353090281284]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。
個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。
これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - Coarse-to-Fine Process Reward Modeling for Mathematical Reasoning [11.15613673478208]
プロセス・リワード・モデル (Process Reward Model, PRM) は数学的推論において重要な役割を担い、高品質なプロセスデータを必要とする。
我々は,Large Language Models (LLM) が生成する推論ステップが,厳密なインクリメンタルな情報表示に失敗することが多く,冗長性が生じることを観察する。
本稿では,冗長なステップを検出するための簡易かつ効果的な粗大な戦略CFPRMを提案する。
論文 参考訳(メタデータ) (2025-01-23T12:44:45Z) - Reasoning Through Execution: Unifying Process and Outcome Rewards for Code Generation [27.484259938667776]
大規模言語モデルはコード生成に優れていますが、推論を必要とする複雑なプログラミングタスクに苦労します。
本稿では,実行可能検証を活用することで,プロセスと結果の監視を統一するアウトカム・リフィニング・プロセス・スーパービジョンを紹介する。
5つのモデルと3つのベンチマークによる実験では、26.9%の精度でコード効率が42.2%向上した。
論文 参考訳(メタデータ) (2024-12-19T17:59:42Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。