論文の概要: Accelerating Large Language Model Reasoning via Speculative Search
- arxiv url: http://arxiv.org/abs/2505.02865v2
- Date: Sat, 24 May 2025 01:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:54.640665
- Title: Accelerating Large Language Model Reasoning via Speculative Search
- Title(参考訳): 投機探索による大規模言語モデル推論の高速化
- Authors: Zhihai Wang, Jie Wang, Jilai Pan, Xilin Xia, Huiling Zhen, Mingxuan Yuan, Jianye Hao, Feng Wu,
- Abstract要約: 本稿では,大規模言語モデル(LLM)推論を著しく高速化する新しいSpec Searchフレームワークを提案する。
具体的には、SpecSearchは小さなモデルを使用して、思考とトークンのレベルで大きなモデルと戦略的に協力する。
SpecSearchの主要な柱は、大きなモデルの出力よりも品質が低い考えを効果的にフィルタリングする、新しい品質保存の拒絶メカニズムである。
- 参考スコア(独自算出の注目度): 59.48276891032373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tree-search-based reasoning methods have significantly enhanced the reasoning capability of large language models (LLMs) by facilitating the exploration of multiple intermediate reasoning steps, i.e., thoughts. However, these methods suffer from substantial inference latency, as they have to generate numerous reasoning thoughts, severely limiting LLM applicability. To address this challenge, we propose a novel Speculative Search (SpecSearch) framework that significantly accelerates LLM reasoning by optimizing thought generation. Specifically, SpecSearch utilizes a small model to strategically collaborate with a large model at both thought and token levels, efficiently generating high-quality reasoning thoughts. The major pillar of SpecSearch is a novel quality-preserving rejection mechanism, which effectively filters out thoughts whose quality falls below that of the large model's outputs. Moreover, we show that SpecSearch preserves comparable reasoning quality to the large model. Experiments on both the Qwen and Llama models demonstrate that SpecSearch significantly outperforms state-of-the-art approaches, achieving up to 2.12$\times$ speedup with comparable reasoning quality.
- Abstract(参考訳): 木探索に基づく推論手法は、複数の中間的推論ステップ、すなわち思考の探索を容易にすることで、大規模言語モデル(LLM)の推論能力を著しく向上させた。
しかし、これらの手法は、LLMの適用性を著しく制限し、多くの推論思想を生成する必要があるため、かなりの推論遅延に悩まされる。
この課題に対処するために,思考生成を最適化してLLM推論を著しく高速化する新しいSpec Searchフレームワークを提案する。
具体的には、SpecSearchは小さなモデルを使用して、思考とトークンのレベルで大きなモデルと戦略的に協力し、高品質な推論思考を効率的に生成する。
SpecSearchの主要な柱は、大きなモデルの出力よりも品質が低い考えを効果的にフィルタリングする、新しい品質保存の拒絶メカニズムである。
さらに、SpecSearchは大きなモデルに匹敵する推論品質を保っていることを示す。
QwenモデルとLlamaモデルの両方の実験では、SpecSearchは最先端のアプローチを大幅に上回り、2.12$\times$のスピードアップを同等の推論品質で達成している。
関連論文リスト
- Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.13238566815798]
大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。
最近の研究は、LLMがテスト時間推論中により多くのトークンで"考える"ことを奨励することは、推論の精度を著しく向上させることを示した。
OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。
論文 参考訳(メタデータ) (2025-01-16T17:37:58Z) - CreDes: Causal Reasoning Enhancement and Dual-End Searching for Solving Long-Range Reasoning Problems using LLMs [13.977459316171013]
大規模言語モデル(LLM)は、長距離推論を含む最適化問題に対処する際の限界を実証している。
本稿では、因果関係強化(CRE)機構と個別治療効果(ITE)を組み合わせて、因果関係の確固たる正当性を保証する。
実験により、CreDesは精度と時間効率の両方で既存のState-Of-The-Art(SOTA)ソリューションを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-10-02T16:05:01Z) - Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文 参考訳(メタデータ) (2023-11-23T17:09:48Z) - Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。
我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。
我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-30T13:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。