論文の概要: DeepPrune: Parallel Scaling without Inter-trace Redundancy
- arxiv url: http://arxiv.org/abs/2510.08483v1
- Date: Thu, 09 Oct 2025 17:24:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.243212
- Title: DeepPrune: Parallel Scaling without Inter-trace Redundancy
- Title(参考訳): DeepPrune: トレース間の冗長性のない並列スケーリング
- Authors: Shangqing Tu, Yaxuan Li, Yushi Bai, Lei Hou, Juanzi Li,
- Abstract要約: 並列推論トレースの80%以上は、実質的な無駄な計算を代表して、同じ最終回答をもたらす。
動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。
我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
- 参考スコア(独自算出の注目度): 53.62015294143274
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Parallel scaling has emerged as a powerful paradigm to enhance reasoning capabilities in large language models (LLMs) by generating multiple Chain-of-Thought (CoT) traces simultaneously. However, this approach introduces significant computational inefficiency due to inter-trace redundancy -- our analysis reveals that over 80% of parallel reasoning traces yield identical final answers, representing substantial wasted computation. To address this critical efficiency bottleneck, we propose DeepPrune, a novel framework that enables efficient parallel scaling through dynamic pruning. Our method features a specialized judge model trained with focal loss and oversampling techniques to accurately predict answer equivalence from partial reasoning traces which realizes 0.87 AUROC on equivalence prediction, combined with an online greedy clustering algorithm that dynamically prunes redundant paths while preserving answer diversity. Comprehensive evaluations across three challenging benchmarks (AIME 2024, AIME 2025, and GPQA) and multiple reasoning models demonstrate that DeepPrune achieves remarkable token reduction by over 80% compared to conventional consensus sampling on most cases, while maintaining competitive accuracy within 3 percentage points. Our work establishes a new standard for efficient parallel reasoning, making high-performance reasoning more efficient. Our code and data are here: https://deepprune.github.io/
- Abstract(参考訳): 並列スケーリングは、複数のChain-of-Thought(CoT)トレースを同時に生成することで、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
しかし,本手法ではトラス間冗長性による計算効率の低下が顕著であり,並列推論トレースの80%以上が同じ最終解を導出し,実質的な無駄な計算を表現していることが明らかとなった。
この重要な効率ボトルネックに対処するために,動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。
提案手法は,焦点損失とオーバーサンプリング手法を訓練した専門的判断モデルを用いて,等価性予測の0.87 AUROCを実現する部分的推論トレースから解の等価性を正確に予測し,解の多様性を保ちながら冗長な経路を動的に生成するオンライングリーディクラスタリングアルゴリズムと組み合わせたものである。
3つの挑戦的ベンチマーク(AIME 2024, AIME 2025, GPQA)と複数の推論モデルによる総合的な評価は、DeepPruneが従来のコンセンサスサンプリングに比べて80%以上減少し、競争精度は3ポイント以内であることを示している。
我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
私たちのコードとデータはこちらです。
関連論文リスト
- Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Robustness of deep learning classification to adversarial input on GPUs: asynchronous parallel accumulation is a source of vulnerability [4.054484966653432]
機械学習(ML)分類モデルの安全性と信頼性の重要な尺度は、小さな、ターゲットとする入力摂動に抵抗する能力である。
浮動小数点非連想性がGPU上での非同期並列プログラミングと結合し,誤分類を生じさせることを示す。
また, 機械レベルの詳細を考慮しない場合, 標準対向ロバスト性は4.6まで過大評価されることが示唆された。
論文 参考訳(メタデータ) (2025-03-21T14:19:45Z) - Dynamic Parallel Tree Search for Efficient LLM Reasoning [102.16694475391665]
Tree of Thoughts (ToT) は大規模言語モデル(LLM)推論を強化し、分散木としての問題解決を構造化する。
推論における推論経路を動的に最適化することを目的とした,新しい並列化フレームワークであるDynamic Parallel Tree Search (DPTS)を提案する。
Qwen-2.5とLlama-3のMath500とGSM8Kデータセットによる実験では、DPTSは平均で2-4倍効率が向上した。
論文 参考訳(メタデータ) (2025-02-22T14:13:37Z) - A Partial Regularization Method for Network Compression [0.0]
本稿では, モデル圧縮を高速に行うために, 完全正則化と言われる全てのパラメータをペナライズする元の形式ではなく, 部分正則化のアプローチを提案する。
実験結果から, ほぼすべての状況において, 走行時間の減少を観測することにより, 計算複雑性を低減できることが示唆された。
驚くべきことに、複数のデータセットのトレーニングフェーズとテストフェーズの両方において、回帰フィッティング結果や分類精度などの重要な指標を改善するのに役立ちます。
論文 参考訳(メタデータ) (2020-09-03T00:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。