論文の概要: ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models
- arxiv url: http://arxiv.org/abs/2512.07843v1
- Date: Mon, 24 Nov 2025 18:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 04:16:52.506021
- Title: ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models
- Title(参考訳): ThreadWeaver: 言語モデルにおける効率的な並列推論のための適応的なスレッド化
- Authors: Long Lian, Sida Wang, Felix Juefei-Xu, Tsu-Jui Fu, Xiuyu Li, Adam Yala, Trevor Darrell, Alane Suhr, Yuandong Tian, Xi Victoria Lin,
- Abstract要約: 適応並列推論のためのフレームワークThreadWeaverを紹介します。
ThreadWeaverは、同等サイズの一般的なシーケンシャル推論モデルと同等の精度を達成する。
ThreadWeaverはトークンのレイテンシの平均速度を最大1.53倍にします。
- 参考スコア(独自算出の注目度): 99.6720868215076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling inference-time computation has enabled Large Language Models (LLMs) to achieve strong reasoning performance, but inherently sequential decoding leads to substantial latency, especially on complex tasks. Recent work on adaptive parallel reasoning aims to improve inference efficiency by decomposing the problem-solving process into concurrent reasoning threads when beneficial. However, existing methods on realistic tasks are either limited to supervised behavior cloning or exhibit significant accuracy drops compared to widely-used sequential long chain-of-thought (CoT) baselines. Moreover, many require customized inference engines, complicating deployment. We introduce ThreadWeaver, a framework for adaptive parallel reasoning that achieves accuracy on par with popular sequential reasoning models of comparable size while significantly reducing inference latency. ThreadWeaver's performance stems from three key innovations: 1) a two-stage parallel trajectory generator that produces large-scale, high-quality CoT data with parallel annotations for supervised fine-tuning; 2) a trie-based training-inference co-design that enables parallel reasoning on any off-the-shelf autoregressive inference engine without modifying position embeddings or KV caches; and 3) a parallelization-aware reinforcement learning framework that teaches the model to balance accuracy with effective parallelization. Across six challenging mathematical reasoning benchmarks, ThreadWeaver trained atop Qwen3-8B achieves accuracy comparable to cutting-edge sequential reasoning models (71.9% on average and 79.9% on AIME24) while delivering up to 1.53x average speedup in token latency, establishing a new Pareto frontier between accuracy and efficiency.
- Abstract(参考訳): 推論時間計算のスケールにより、Large Language Models (LLM) は強力な推論性能を実現することができたが、本質的にシーケンシャルな復号化は、特に複雑なタスクにおいて、かなりのレイテンシをもたらす。
適応並列推論に関する最近の研究は、問題解決プロセスを有効であれば並列推論スレッドに分解することで、推論効率を向上させることを目的としている。
しかし、現実的なタスクに対する既存の手法は、教師付き行動クローニングに限られるか、広く使われている長いチェーン・オブ・シークエンス(CoT)ベースラインと比較して、かなりの精度の低下を示す。
さらに、多くはカスタマイズされた推論エンジンを必要とし、デプロイを複雑にする。
我々はThreadWeaverを紹介した。これは適応並列推論のためのフレームワークで、最大サイズの一般的なシーケンシャル推論モデルと同等の精度を実現し、推論遅延を著しく低減します。
ThreadWeaverのパフォーマンスは、3つの重要なイノベーションに由来する。
1) 大規模かつ高品質なCoTデータを生成する2段階並列軌道生成装置。
2 位置埋め込み又はKVキャッシュを変更することなく、既製の自己回帰推論エンジンの並列推論を可能にするトリエベースのトレーニング推論共設計
3) 効果的な並列化と精度のバランスをモデルに教える並列化対応強化学習フレームワーク。
6つの挑戦的な数学的推論ベンチマークの中で、ThreadWeaverはQwen3-8B上でトレーニングを行い、最先端のシーケンシャル推論モデル(平均71.9%、AIME24では79.9%)に匹敵する精度を実現した。
関連論文リスト
- Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning [68.9332598692234]
我々はNative Parallel Reasoner(NPR)を紹介した。これは、LLM(Large Language Models)が真の並列推論能力を自己発展させることを可能にする、教師なしのフレームワークである。
NPRは、モデルをシーケンシャルエミュレーションから3つの重要な革新を通じてネイティブ並列認識に変換する。
論文 参考訳(メタデータ) (2025-12-08T11:39:43Z) - DeepPrune: Parallel Scaling without Inter-trace Redundancy [53.62015294143274]
並列推論トレースの80%以上は、実質的な無駄な計算を代表して、同じ最終回答をもたらす。
動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。
我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
論文 参考訳(メタデータ) (2025-10-09T17:24:54Z) - ATTS: Asynchronous Test-Time Scaling via Conformal Prediction [112.54016379556073]
大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
統計的に保証された適応スケーリングフレームワークであるATTS(Asynchronous Test-Time Scaling)を紹介する。
ATTSは、テストタイムのスケーリングにおいて最大56.7倍のスピードアップと4.14倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2025-09-18T16:55:09Z) - ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs [34.477777651648914]
大規模言語モデル(LLM)は、自動回帰デコードパラダイムのため、推論遅延の大きな問題を生じさせる。
本稿では、並列化可能なデータの自動構築と効率的な並列化機構の2つの課題に対処する適応シリアル-パラレルデコーディング(ASPD)を提案する。
我々のフレームワークは、効率的なLCM並列推論のための基盤となるベンチマークを設定し、AIによるカスタマーサービスボットや回答検索エンジンのようなレイテンシに敏感なアプリケーションへのデプロイの道を開く。
論文 参考訳(メタデータ) (2025-08-12T12:35:55Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。