論文の概要: First Finish Search: Efficient Test-Time Scaling in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.18149v1
- Date: Fri, 23 May 2025 17:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.265335
- Title: First Finish Search: Efficient Test-Time Scaling in Large Language Models
- Title(参考訳): ファーストフィニッシュ検索:大規模言語モデルにおける効率的なテスト時間スケーリング
- Authors: Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty,
- Abstract要約: First Finish Search(FFS)は、トレーニング不要の並列デコード戦略で、独立して$n$のサンプルをローンチし、任意のサンプルが完成したらすぐに返却する。
FFSは、AIMEデータセットで82.23%の精度を達成し、DeepSeek-R1のスタンドアロンの精度よりも15%$改善され、OpenAIのo4-miniのパフォーマンスとほぼ一致する。
- 参考スコア(独自算出の注目度): 20.62274005080048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling (TTS), which involves dynamic allocation of compute during inference, offers a promising way to improve reasoning in large language models. While existing TTS methods work well, they often rely on long decoding paths or require a large number of samples to be generated, increasing the token usage and inference latency. We observe the surprising fact that for reasoning tasks, shorter traces are much more likely to be correct than longer ones. Motivated by this, we introduce First Finish Search (FFS), a training-free parallel decoding strategy that launches $n$ independent samples and returns as soon as any one completes. We evaluate FFS alongside simple decoding, beam search, majority voting, and budget forcing on four reasoning models (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B and Phi-4-Reasoning-Plus) and across four datasets (AIME24, AIME25-I, AIME25-II and GPQA Diamond). With DeepSeek-R1, FFS achieves $82.23\%$ accuracy on the AIME datasets, a $15\%$ improvement over DeepSeek-R1's standalone accuracy, nearly matching OpenAI's o4-mini performance. Our theoretical analysis explains why stopping at the shortest trace is likely to yield a correct answer and identifies the conditions under which early stopping may be suboptimal. The elegance and simplicity of FFS demonstrate that straightforward TTS strategies can perform remarkably well, revealing the untapped potential of simple approaches at inference time.
- Abstract(参考訳): テスト時間スケーリング(TTS)は、推論中の計算の動的割り当てを伴い、大規模言語モデルにおける推論を改善するための有望な方法を提供する。
既存のTSメソッドはうまく機能するが、長いデコードパスに依存したり、大量のサンプルを生成する必要があるため、トークンの使用量や推論遅延が増加する。
私たちは、推論タスクにおいて、短いトレースの方が長いトレースよりもずっと正しい可能性が高いという驚くべき事実を観察します。
トレーニング不要の並列デコード戦略であるFirst Finish Search (FFS)を導入し、独立したサンプルを$n$で起動し、任意のサンプルが完成すればすぐに戻ります。
簡単な復号化, ビーム探索, 多数決, 4つの推論モデル (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B, Phi-4-Reasoning-Plus) と4つのデータセット (AIME24, AIME25-I, AIME25-II, GPQA Diamond) を併用してFFSを評価する。
DeepSeek-R1では、FFSはAIMEデータセットで82.23\%の精度を達成し、DeepSeek-R1のスタンドアロンの精度よりも15\%のコストで改善され、OpenAIのo4-miniのパフォーマンスとほぼ一致する。
我々の理論的分析は、なぜ最短のトレースで停止すると正しい答えが得られ、早期停止が最適である可能性のある条件を特定するのかを説明している。
FFSのエレガンスと単純さは、単純なTS戦略が非常にうまく機能できることを示し、推論時に単純なアプローチの未解決の可能性を明らかにしている。
関連論文リスト
- Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement [22.801244105119025]
精度と計算を効果的にトレードオフすることで、小型モデルによるトークン効率の推論を改善する新しいアルゴリズムを提案する。
まず、SFT後のモデルが推論過程の最適停止点を決定するのに失敗し、冗長かつ反復的な出力が得られることを示す。
MATH500、AMC、AIME24、OlympiadBenchの4つの推論ベンチマークの実験は、TSがs1の予算強制アプローチと比較して非常に効果的であることを示した。
論文 参考訳(メタデータ) (2025-05-12T18:04:39Z) - Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking [16.441081996257576]
本稿では, 簡易かつ効果的なテスト時間スケーリング手法としてマルチラウンド思考を提案する。
この方法は、その後のラウンドのプロンプトとして過去の回答を活用することにより、モデル推論を反復的に洗練する。
QwQ-32BやDeepSeek-R1など、複数のモデルにわたる実験は、一貫してパフォーマンス改善を示している。
論文 参考訳(メタデータ) (2025-03-25T17:19:38Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。
テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文 参考訳(メタデータ) (2025-01-31T18:48:08Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。