論文の概要: Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing
- arxiv url: http://arxiv.org/abs/2602.03845v1
- Date: Tue, 03 Feb 2026 18:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.651873
- Title: Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing
- Title(参考訳): パラレルプローブ:2次元プローブによる効率的なパラレル思考を目指して
- Authors: Tong Zheng, Chengsong Huang, Runpeng Dai, Yun He, Rui Liu, Xin Ni, Huiwen Bao, Kaishen Wang, Hongtu Zhu, Jiaxin Huang, Furong Huang, Heng Huang,
- Abstract要約: Parallel-Probeは、オンライン並列思考を最適化するために設計されたトレーニング不要のコントローラである。
競合精度を維持しつつ、シーケンシャルトークンを最大$textbf35.8$%、トータルトークンコストを$textbf25.8$%まで削減する。
- 参考スコア(独自算出の注目度): 76.48164395646019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parallel thinking has emerged as a promising paradigm for reasoning, yet it imposes significant computational burdens. Existing efficiency methods primarily rely on local, per-trajectory signals and lack principled mechanisms to exploit global dynamics across parallel branches. We introduce 2D probing, an interface that exposes the width-depth dynamics of parallel thinking by periodically eliciting intermediate answers from all branches. Our analysis reveals three key insights: non-monotonic scaling across width-depth allocations, heterogeneous reasoning branch lengths, and early stabilization of global consensus. Guided by these insights, we introduce $\textbf{Parallel-Probe}$, a training-free controller designed to optimize online parallel thinking. Parallel-Probe employs consensus-based early stopping to regulate reasoning depth and deviation-based branch pruning to dynamically adjust width. Extensive experiments across three benchmarks and multiple models demonstrate that Parallel-Probe establishes a superior Pareto frontier for test-time scaling. Compared to standard majority voting, it reduces sequential tokens by up to $\textbf{35.8}$% and total token cost by over $\textbf{25.8}$% while maintaining competitive accuracy.
- Abstract(参考訳): 並列思考は推論のための有望なパラダイムとして現れてきたが、かなりの計算負担を課している。
既存の効率の手法は、主に軌道毎の局所的な信号に依存しており、並列分岐をまたいだグローバルダイナミクスを利用するための原理的なメカニズムが欠如している。
パラレル思考の幅-深さのダイナミクスを明らかにするインタフェースである2D Probingを導入する。
分析の結果,非単調なスケーリングは幅幅の割り当て,不均一な推論分岐長,グローバルコンセンサスの初期安定化という3つの重要な知見が得られた。
これらの知見に導かれ、オンライン並列思考を最適化するために設計されたトレーニング不要のコントローラである$\textbf{Parallel-Probe}$を紹介した。
Parallel-Probeはコンセンサスに基づく早期停止を用いて推論深さと偏差に基づく分岐プルーニングを制御し、幅を動的に調整する。
3つのベンチマークと複数のモデルにわたる大規模な実験は、Parallel-Probeがテスト時間スケーリングにおいて優れたParetoフロンティアを確立していることを示している。
通常の過半数投票と比較して、シーケンシャルトークンを$\textbf{35.8}$%、トータルトークンコストを$\textbf{25.8}$%まで削減し、競争精度を維持している。
関連論文リスト
- Parallel Latent Reasoning for Sequential Recommendation [23.624137982116867]
多様な推論軌道を同時に探索するための新しいフレームワークである PLR を提案する。
PLRは連続的な潜在空間における学習可能なトリガートークンを通して並列推論ストリームを構築する。
3つの実世界のデータセットの実験により、PLRは最先端のベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2026-01-06T16:25:48Z) - Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning [68.9332598692234]
我々はNative Parallel Reasoner(NPR)を紹介した。これは、LLM(Large Language Models)が真の並列推論能力を自己発展させることを可能にする、教師なしのフレームワークである。
NPRは、モデルをシーケンシャルエミュレーションから3つの重要な革新を通じてネイティブ並列認識に変換する。
論文 参考訳(メタデータ) (2025-12-08T11:39:43Z) - ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models [99.6720868215076]
適応並列推論のためのフレームワークThreadWeaverを紹介します。
ThreadWeaverは、同等サイズの一般的なシーケンシャル推論モデルと同等の精度を達成する。
ThreadWeaverはトークンのレイテンシの平均速度を最大1.53倍にします。
論文 参考訳(メタデータ) (2025-11-24T18:55:59Z) - DeepPrune: Parallel Scaling without Inter-trace Redundancy [53.62015294143274]
並列推論トレースの80%以上は、実質的な無駄な計算を代表して、同じ最終回答をもたらす。
動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。
我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
論文 参考訳(メタデータ) (2025-10-09T17:24:54Z) - Rethinking Thinking Tokens: LLMs as Improvement Operators [80.12087211785949]
推論トレーニングは、LLMに長い思考の連鎖(長いCoT)を生み出す動機を与え、自己チェックによるソリューション戦略を探索することを可能にする。
これにより、精度が高くなりますが、コンテキストの長さ、トークン/計算コスト、応答レイテンシが膨らみます。
現在のモデルはメタ認知を活用して、このParetoフロンティアで他の組み合わせを提供できるのでしょうか?
i) 多様なドラフトを並列に生成し、(ii) それらを有界なテキストワークスペースに蒸留し、(iii) このワークスペース上に条件付き精製する。
論文 参考訳(メタデータ) (2025-10-01T17:08:59Z) - Parallel-R1: Towards Parallel Thinking via Reinforcement Learning [65.68667585027232]
並列思考は、大規模言語モデルの推論能力を高めるための新しいアプローチである。
並列思考行動を可能にする最初の強化学習フレームワークである textbfParallel-R1 を提案する。
本フレームワークでは,並列思考のトレーニングにおいて,コールドスタート問題に明示的に対処する漸進的なカリキュラムを採用している。
論文 参考訳(メタデータ) (2025-09-09T17:59:35Z) - Speculative Decoding via Hybrid Drafting and Rollback-Aware Branch Parallelism [20.3565068078231]
仮説復号における分岐並列性を解き放つための新しいフレームワーク textbfSpecBranch を提案する。
SpecBranchがtextbf1.8$times sim$ textbf4.5$times$ speedups against the auto-regressive decoding and reduces rollback tokens by $textbf50$% for aligned model。
論文 参考訳(メタデータ) (2025-05-16T07:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。