論文の概要: Cut Your Losses! Learning to Prune Paths Early for Efficient Parallel Reasoning
- arxiv url: http://arxiv.org/abs/2604.16029v1
- Date: Fri, 17 Apr 2026 13:00:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.923291
- Title: Cut Your Losses! Learning to Prune Paths Early for Efficient Parallel Reasoning
- Title(参考訳): 損失を削減! 効果的な並列推論のための経路を早期に習得する
- Authors: Jiaxi Bi, Tongxu Luo, Wenyu Du, Zhengyang Tang, Benyou Wang,
- Abstract要約: 経路解析における最初の体系的分類法を提案し,その信号源による分類法(内部対外部)と学習可能性(学習可能対非学習可能)を提案する。
この分類は、学習可能な内部メソッドの未探索の可能性を明らかにし、STOP(Super Token for Pruning)の提案を動機付けます。
- 参考スコア(独自算出の注目度): 30.70183055909553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parallel reasoning enhances Large Reasoning Models (LRMs) but incurs prohibitive costs due to futile paths caused by early errors. To mitigate this, path pruning at the prefix level is essential, yet existing research remains fragmented without a standardized framework. In this work, we propose the first systematic taxonomy of path pruning, categorizing methods by their signal source (internal vs. external) and learnability (learnable vs. non-learnable). This classification reveals the unexplored potential of learnable internal methods, motivating our proposal of STOP (Super TOken for Pruning). Extensive evaluations across LRMs ranging from 1.5B to 20B parameters demonstrate that STOP achieves superior effectiveness and efficiency compared to existing baselines. Furthermore, we rigorously validate the scalability of STOP under varying compute budgets - for instance, boosting GPT-OSS-20B accuracy on AIME25 from 84% to nearly 90% under fixed compute budgets. Finally, we distill our findings into formalized empirical guidelines to facilitate optimal real-world deployment. Code, data and models are available at https://bijiaxihh.github.io/STOP
- Abstract(参考訳): 並列推論は、Large Reasoning Models (LRM) を強化するが、早期エラーによる無駄な経路による禁止コストを発生させる。
これを緩和するためには、プレフィックスレベルでのパスプルーニングが不可欠であるが、既存の研究は標準化されたフレームワークなしで断片化されている。
本研究では,経路解析における最初の体系的分類法として,信号源(内部対外部)と学習可能性(学習可能対非学習可能)の分類法を提案する。
この分類は、学習可能な内部メソッドの未探索の可能性を明らかにし、STOP(Super Token for Pruning)の提案を動機付けます。
1.5B から 20B のパラメータを含む LRM の広範な評価は,STOP が既存のベースラインよりも優れた有効性と効率性が得られることを示した。
さらに、様々な計算予算の下でSTOPのスケーラビリティを厳格に検証し、例えば、AIME25におけるGPT-OSS-20Bの精度を、固定された計算予算下で84%から90%近くに向上させる。
最後に,本研究の成果を,実世界の最適な展開を促進するための形式化された実証的ガイドラインに抽出する。
コード、データ、モデルはhttps://bijiaxih.github.io/STOPで入手できる。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Rethinking the Design Space of Reinforcement Learning for Diffusion Models: On the Importance of Likelihood Estimation Beyond Loss Design [45.80068602880684]
本稿では,政策段階の目標,可能性推定器,ロールアウトサンプリングスキームの3つの要因を解消し,RL設計空間を体系的に解析する。
最終生成標本からのみ計算されるエビデンス低境界モデル推定器(ELBO)を採用することが,有効,効率的,安定なRL最適化を実現する主要な要因であることを示す。
論文 参考訳(メタデータ) (2026-02-04T15:36:42Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Fishing For Cheap And Efficient Pruners At Initialization [4.433137726540548]
Pruningは、大規模ディープニューラルネットワーク(DNN)のデプロイに伴うコストと環境への影響を軽減する、有望なソリューションを提供する。
本稿では,Fisher-Taylor Sensitivity (FTS)について紹介する。これは,経験的Fisher Information Matrix (FIM) 対角線に基づく,安価で効率的なプルーニング基準である。
提案手法は, 極端間隔条件下であっても, ワンショットPSTの最先端技術に対する競合性能を実現する。
論文 参考訳(メタデータ) (2025-02-17T05:22:23Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。