論文の概要: Accelerating Large Language Model Reasoning via Speculative Search
- arxiv url: http://arxiv.org/abs/2505.02865v1
- Date: Sat, 03 May 2025 12:14:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.048724
- Title: Accelerating Large Language Model Reasoning via Speculative Search
- Title(参考訳): 投機探索による大規模言語モデル推論の高速化
- Authors: Zhihai Wang, Jie Wang, Jilai Pan, Xilin Xia, Huiling Zhen, Mingxuan Yuan, Jianye Hao, Feng Wu,
- Abstract要約: 本稿では,大規模言語モデル(LLM)推論を著しく高速化する新しいSpec Searchフレームワークを提案する。
具体的には、SpecSearchは小さなモデルを使用して、思考とトークンのレベルで大きなモデルと戦略的に協力する。
SpecSearchの主要な柱は、大きなモデルの出力よりも品質が低い考えを効果的にフィルタリングする、新しい品質保存の拒絶メカニズムである。
- 参考スコア(独自算出の注目度): 59.48276891032373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tree-search-based reasoning methods have significantly enhanced the reasoning capability of large language models (LLMs) by facilitating the exploration of multiple intermediate reasoning steps, i.e., thoughts. However, these methods suffer from substantial inference latency, as they have to generate numerous reasoning thoughts, severely limiting LLM applicability. To address this challenge, we propose a novel Speculative Search (SpecSearch) framework that significantly accelerates LLM reasoning by optimizing thought generation. Specifically, SpecSearch utilizes a small model to strategically collaborate with a large model at both thought and token levels, efficiently generating high-quality reasoning thoughts. The major pillar of SpecSearch is a novel quality-preserving rejection mechanism, which effectively filters out thoughts whose quality falls below that of the large model's outputs. Moreover, we show that SpecSearch preserves comparable reasoning quality to the large model. Experiments on both the Qwen and Llama models demonstrate that SpecSearch significantly outperforms state-of-the-art approaches, achieving up to 2.12$\times$ speedup with comparable reasoning quality.
- Abstract(参考訳): 木探索に基づく推論手法は、複数の中間的推論ステップ、すなわち思考の探索を容易にすることで、大規模言語モデル(LLM)の推論能力を著しく向上させた。
しかし、これらの手法は、LLMの適用性を著しく制限し、多くの推論思想を生成する必要があるため、かなりの推論遅延に悩まされる。
この課題に対処するために,思考生成を最適化してLLM推論を著しく高速化する新しいSpec Searchフレームワークを提案する。
具体的には、SpecSearchは小さなモデルを使用して、思考とトークンのレベルで大きなモデルと戦略的に協力し、高品質な推論思考を効率的に生成する。
SpecSearchの主要な柱は、大きなモデルの出力よりも品質が低い考えを効果的にフィルタリングする、新しい品質保存の拒絶メカニズムである。
さらに、SpecSearchは大きなモデルに匹敵する推論品質を保っていることを示す。
QwenモデルとLlamaモデルの両方の実験では、SpecSearchは最先端のアプローチを大幅に上回り、2.12$\times$のスピードアップを同等の推論品質で達成している。
関連論文リスト
- Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models [23.642200042199484]
我々は、大規模言語モデル(RLLM)を推論するための文脈内学習(ICL)パラダイムとして、思考を伴う思考(JointThinking)を提案する。
提案手法は,思考モードと思考モードの2つの回答を並列に生成する。
JointThinkingは、数発のチェーン・オブ・シークレット・ロバスト性(CoT)と、回答の改善による多数決を著しく上回っている。
論文 参考訳(メタデータ) (2025-08-05T12:09:55Z) - Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models [49.598776427454176]
大規模共振モデル (LRM) は, 複雑なタスクの処理性能に優れていたため, 徐々に研究ホットスポットになりつつある。
しかし、これらのモデルが広く適用されたことにより、過度に考え直すという問題が徐々に顕在化していった。
モデル性能と推論能力を損なうことなく、推論経路の長さを短縮することを目的とした、様々な効率的な推論手法が提案されている。
論文 参考訳(メタデータ) (2025-08-04T06:54:31Z) - Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - A*-Thought: Efficient Reasoning via Bidirectional Compression for Low-Resource Settings [64.36404136352287]
A*-Thoughtは、最も本質的な思考を識別し、分離するために設計された効率的なツリー検索ベースの統合フレームワークである。
LRMの推論過程を探索木として定式化し、各ノードは巨大な推論空間における推論スパンを表す。
低予算でQwQ-32Bを2.39$times$で改善し、高予算で出力トークンの長さを50%近く削減できる。
論文 参考訳(メタデータ) (2025-05-30T12:58:34Z) - Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning [27.498043430208085]
チェーン・オブ・ソート(CoT)推論への過剰依存はモデル性能を損なう可能性がある。
我々はCAR(Adaptive Reasoning)を提案する。
CARは、モデルの難易度に基づいて、短い回答と長い形式の推論を切り替える。
論文 参考訳(メタデータ) (2025-05-21T06:20:17Z) - Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.13238566815798]
大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。
最近の研究は、LLMがテスト時間推論中により多くのトークンで"考える"ことを奨励することは、推論の精度を著しく向上させることを示した。
OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。
論文 参考訳(メタデータ) (2025-01-16T17:37:58Z) - CreDes: Causal Reasoning Enhancement and Dual-End Searching for Solving Long-Range Reasoning Problems using LLMs [13.977459316171013]
大規模言語モデル(LLM)は、長距離推論を含む最適化問題に対処する際の限界を実証している。
本稿では、因果関係強化(CRE)機構と個別治療効果(ITE)を組み合わせて、因果関係の確固たる正当性を保証する。
実験により、CreDesは精度と時間効率の両方で既存のState-Of-The-Art(SOTA)ソリューションを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-10-02T16:05:01Z) - Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文 参考訳(メタデータ) (2023-11-23T17:09:48Z) - Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。
我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。
我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-30T13:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。