論文の概要: PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning
- arxiv url: http://arxiv.org/abs/2601.05593v1
- Date: Fri, 09 Jan 2026 07:24:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.893629
- Title: PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning
- Title(参考訳): PaCoRe: 並列コーディネート推論によるテスト時間計算のスケール学習
- Authors: Jingcheng Hu, Yinmin Zhang, Shijie Shang, Xiaobo Yang, Yue Peng, Zhewei Huang, Hebin Zhou, Xin Wu, Jie Cheng, Fanqi Wan, Xiangwen Kong, Chengyuan Yao, Kaiwen Yan, Ailin Huang, Hongyu Zhou, Qi Han, Zheng Ge, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum,
- Abstract要約: PaCoReは、現代の言語モデルの中心的な制限を克服するために設計されたトレーニングと推論のフレームワークである。
PaCoReは、複数のラウンドでメッセージパッシングアーキテクチャを介して調整された巨大な並列探索を通じてTTCを駆動することで、従来のシーケンシャルパラダイムから逸脱する。
大規模で結果に基づく強化学習を備えたエンドツーエンドで訓練されたモデルでは、PaCoReに必要な合成能力を習得し、コンテキスト制限を超えることなく、数百万の効果的なTTCにスケールする。
- 参考スコア(独自算出の注目度): 62.55836470496192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Parallel Coordinated Reasoning (PaCoRe), a training-and-inference framework designed to overcome a central limitation of contemporary language models: their inability to scale test-time compute (TTC) far beyond sequential reasoning under a fixed context window. PaCoRe departs from the traditional sequential paradigm by driving TTC through massive parallel exploration coordinated via a message-passing architecture in multiple rounds. Each round launches many parallel reasoning trajectories, compacts their findings into context-bounded messages, and synthesizes these messages to guide the next round and ultimately produce the final answer. Trained end-to-end with large-scale, outcome-based reinforcement learning, the model masters the synthesis abilities required by PaCoRe and scales to multi-million-token effective TTC without exceeding context limits. The approach yields strong improvements across diverse domains, and notably pushes reasoning beyond frontier systems in mathematics: an 8B model reaches 94.5% on HMMT 2025, surpassing GPT-5's 93.2% by scaling effective TTC to roughly two million tokens. We open-source model checkpoints, training data, and the full inference pipeline to accelerate follow-up work.
- Abstract(参考訳): 本稿では,現代の言語モデルの中心的制約を克服する訓練と推論のフレームワークであるPallel Coordinated Reasoning(PaCoRe)を紹介した。
PaCoReは、複数のラウンドでメッセージパッシングアーキテクチャを介して調整された巨大な並列探索を通じてTTCを駆動することで、従来のシーケンシャルパラダイムから逸脱する。
各ラウンドは、複数の並列推論トラジェクトリを起動し、結果をコンテキスト境界のメッセージに圧縮し、これらのメッセージを合成して次のラウンドを案内し、最終的に最終回答を生成する。
大規模で結果に基づく強化学習を備えたエンドツーエンドで訓練されたモデルでは、PaCoReに必要な合成能力を習得し、コンテキスト制限を超えることなく、数百万の効果的なTTCにスケールする。
8BモデルはHMMT 2025で94.5%に達し、GPT-5の93.2%を超える。
私たちは、追跡作業を加速するために、モデルチェックポイント、トレーニングデータ、完全な推論パイプラインをオープンソースにしています。
関連論文リスト
- ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models [99.6720868215076]
適応並列推論のためのフレームワークThreadWeaverを紹介します。
ThreadWeaverは、同等サイズの一般的なシーケンシャル推論モデルと同等の精度を達成する。
ThreadWeaverはトークンのレイテンシの平均速度を最大1.53倍にします。
論文 参考訳(メタデータ) (2025-11-24T18:55:59Z) - Rethinking Thinking Tokens: LLMs as Improvement Operators [80.12087211785949]
推論トレーニングは、LLMに長い思考の連鎖(長いCoT)を生み出す動機を与え、自己チェックによるソリューション戦略を探索することを可能にする。
これにより、精度が高くなりますが、コンテキストの長さ、トークン/計算コスト、応答レイテンシが膨らみます。
現在のモデルはメタ認知を活用して、このParetoフロンティアで他の組み合わせを提供できるのでしょうか?
i) 多様なドラフトを並列に生成し、(ii) それらを有界なテキストワークスペースに蒸留し、(iii) このワークスペース上に条件付き精製する。
論文 参考訳(メタデータ) (2025-10-01T17:08:59Z) - Parallel-R1: Towards Parallel Thinking via Reinforcement Learning [65.68667585027232]
並列思考は、大規模言語モデルの推論能力を高めるための新しいアプローチである。
並列思考行動を可能にする最初の強化学習フレームワークである textbfParallel-R1 を提案する。
本フレームワークでは,並列思考のトレーニングにおいて,コールドスタート問題に明示的に対処する漸進的なカリキュラムを採用している。
論文 参考訳(メタデータ) (2025-09-09T17:59:35Z) - Medha: Efficiently Serving Multi-Million Context Length LLM Inference Requests Without Approximations [8.725115559974999]
長期コンテキスト推論のための既存の作業は、主に長期コンテキストトレーニングのテクニックに基づいていることを示す。
これにより、非効率なリソース利用、サーバの断片化、ヘッド・オブ・ライン(HOL)ブロッキングにつながる。
我々は、効率的な長文推論のためのエンドツーエンドシステムであるMedhaを提案する。
論文 参考訳(メタデータ) (2024-09-25T18:21:05Z) - Pre-training for Speech Translation: CTC Meets Optimal Transport [29.807861658249923]
本研究では,コネクショニスト時間分類(CTC)の損失が設計によるモダリティギャップを減少させることを示す。
本稿では,CTCと最適輸送を組み合わせた新しい事前学習手法を提案する。
本手法では,2つのエンコーダ,1つは音響入力用,もう1つはテキスト入力用で構成され,ワッサーシュタイン空間において互いに近接した表現を生成する。
論文 参考訳(メタデータ) (2023-01-27T14:03:09Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。