論文の概要: SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning
- arxiv url: http://arxiv.org/abs/2504.07891v1
- Date: Thu, 10 Apr 2025 16:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 16:21:03.856758
- Title: SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning
- Title(参考訳): SpecReason: 投機推論による高速かつ正確な推論時間計算
- Authors: Rui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali,
- Abstract要約: SpecReason は軽量モデルを用いて LRM 推論を加速し、より単純な中間推論ステップを実行するシステムである。
1.5-2.5$times$ speedup over vanilla LRM inferenceを達成し、精度は1.0-9.9%向上した。
SpecReasonなしでの投機的復号化と比較すると、それらの組み合わせは19.4-44.2%のレイテンシ削減をもたらす。
- 参考スコア(独自算出の注目度): 14.020244011380063
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in inference-time compute have significantly improved performance on complex tasks by generating long chains of thought (CoTs) using Large Reasoning Models (LRMs). However, this improved accuracy comes at the cost of high inference latency due to the length of generated reasoning sequences and the autoregressive nature of decoding. Our key insight in tackling these overheads is that LRM inference, and the reasoning that it embeds, is highly tolerant of approximations: complex tasks are typically broken down into simpler steps, each of which brings utility based on the semantic insight it provides for downstream steps rather than the exact tokens it generates. Accordingly, we introduce SpecReason, a system that automatically accelerates LRM inference by using a lightweight model to (speculatively) carry out simpler intermediate reasoning steps and reserving the costly base model only to assess (and potentially correct) the speculated outputs. Importantly, SpecReason's focus on exploiting the semantic flexibility of thinking tokens in preserving final-answer accuracy is complementary to prior speculation techniques, most notably speculative decoding, which demands token-level equivalence at each step. Across a variety of reasoning benchmarks, SpecReason achieves 1.5-2.5$\times$ speedup over vanilla LRM inference while improving accuracy by 1.0-9.9\%. Compared to speculative decoding without SpecReason, their combination yields an additional 19.4-44.2\% latency reduction. We open-source SpecReason at https://github.com/ruipeterpan/specreason.
- Abstract(参考訳): 推論時間計算の最近の進歩は、Large Reasoning Models (LRMs) を用いて長い思考の連鎖(CoTs)を生成することによって、複雑なタスクの性能を著しく向上させた。
しかし、この改良された精度は、生成された推論シーケンスの長さとデコーディングの自己回帰性により、高い推論遅延のコストがかかる。
複雑なタスクは通常、単純なステップに分解され、それぞれが生成する正確なトークンではなく、下流のステップに提供されるセマンティックな洞察に基づいて、有用性をもたらします。
そこで本研究では,軽量モデルを用いて,より単純な中間推論ステップを実行し,コストのかかるベースモデルを保ち,推測された出力を評価(そして潜在的に正しい)するためにのみ,LEM推論を自動的に高速化するシステムであるSpecReasonを紹介する。
重要なことは、SpecReasonが最終回答精度を維持する際に、思考トークンのセマンティック・フレキシビリティを活用することに重点を置いていることは、先述の投機的復号法、特に各ステップでトークンレベルの等価性を要求する投機的復号法を補完するものである。
様々な推論ベンチマークで、SpecReasonは1.5-2.5$\times$ speedup over vanilla LRM inferenceを達成し、精度は1.0-9.9\%向上した。
SpecReasonなしでの投機的復号化と比較すると、それらの組み合わせは19.4-44.2\%のレイテンシ削減をもたらす。
SpecReasonはhttps://github.com/ruipeterpan/specreason.comでオープンソース公開しています。
関連論文リスト
- When Reasoning Meets Compression: Benchmarking Compressed Large Reasoning Models on Complex Reasoning Tasks [11.656636716718175]
大規模言語モデルの圧縮(LLM)は、計算資源のコスト削減に有効なソリューションを提供する。
圧縮されたDeepSeek-R1モデルを4つの異なる推論データセットでベンチマークした。
パラメータカウントは記憶量よりも LRM の知識に大きく影響していることがわかった。
論文 参考訳(メタデータ) (2025-04-02T05:17:46Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - LongSpec: Long-Context Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
投機的復号化は、大規模言語モデルにおける自己回帰復号化の高推論遅延を軽減するための有望な手法となっている。
その約束にもかかわらず、LLMにおける投機的復号化の効果的な適用は、まだ3つの重要な課題に直面している。
これらの課題に対処することで、長期コンテキスト設定における投機的復号化の性能を向上させる。
論文 参考訳(メタデータ) (2025-02-24T18:53:31Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。