Fugu-MT 論文翻訳(概要): First Finish Search: Efficient Test-Time Scaling in Large Language Models

論文の概要: First Finish Search: Efficient Test-Time Scaling in Large Language Models

arxiv url: http://arxiv.org/abs/2505.18149v1
Date: Fri, 23 May 2025 17:57:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:34.265335
Title: First Finish Search: Efficient Test-Time Scaling in Large Language Models
Title（参考訳）: ファーストフィニッシュ検索:大規模言語モデルにおける効率的なテスト時間スケーリング
Authors: Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty,
Abstract要約: First Finish Search(FFS)は、トレーニング不要の並列デコード戦略で、独立して$n$のサンプルをローンチし、任意のサンプルが完成したらすぐに返却する。 FFSは、AIMEデータセットで82.23%の精度を達成し、DeepSeek-R1のスタンドアロンの精度よりも15%$改善され、OpenAIのo4-miniのパフォーマンスとほぼ一致する。
参考スコア（独自算出の注目度）: 20.62274005080048
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Test-time scaling (TTS), which involves dynamic allocation of compute during inference, offers a promising way to improve reasoning in large language models. While existing TTS methods work well, they often rely on long decoding paths or require a large number of samples to be generated, increasing the token usage and inference latency. We observe the surprising fact that for reasoning tasks, shorter traces are much more likely to be correct than longer ones. Motivated by this, we introduce First Finish Search (FFS), a training-free parallel decoding strategy that launches $n$ independent samples and returns as soon as any one completes. We evaluate FFS alongside simple decoding, beam search, majority voting, and budget forcing on four reasoning models (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B and Phi-4-Reasoning-Plus) and across four datasets (AIME24, AIME25-I, AIME25-II and GPQA Diamond). With DeepSeek-R1, FFS achieves $82.23\%$ accuracy on the AIME datasets, a $15\%$ improvement over DeepSeek-R1's standalone accuracy, nearly matching OpenAI's o4-mini performance. Our theoretical analysis explains why stopping at the shortest trace is likely to yield a correct answer and identifies the conditions under which early stopping may be suboptimal. The elegance and simplicity of FFS demonstrate that straightforward TTS strategies can perform remarkably well, revealing the untapped potential of simple approaches at inference time.
Abstract（参考訳）: テスト時間スケーリング(TTS)は、推論中の計算の動的割り当てを伴い、大規模言語モデルにおける推論を改善するための有望な方法を提供する。既存のTSメソッドはうまく機能するが、長いデコードパスに依存したり、大量のサンプルを生成する必要があるため、トークンの使用量や推論遅延が増加する。私たちは、推論タスクにおいて、短いトレースの方が長いトレースよりもずっと正しい可能性が高いという驚くべき事実を観察します。トレーニング不要の並列デコード戦略であるFirst Finish Search (FFS)を導入し、独立したサンプルを$n$で起動し、任意のサンプルが完成すればすぐに戻ります。簡単な復号化, ビーム探索, 多数決, 4つの推論モデル (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B, Phi-4-Reasoning-Plus) と4つのデータセット (AIME24, AIME25-I, AIME25-II, GPQA Diamond) を併用してFFSを評価する。 DeepSeek-R1では、FFSはAIMEデータセットで82.23\%の精度を達成し、DeepSeek-R1のスタンドアロンの精度よりも15\%のコストで改善され、OpenAIのo4-miniのパフォーマンスとほぼ一致する。我々の理論的分析は、なぜ最短のトレースで停止すると正しい答えが得られ、早期停止が最適である可能性のある条件を特定するのかを説明している。 FFSのエレガンスと単純さは、単純なTS戦略が非常にうまく機能できることを示し、推論時に単純なアプローチの未解決の可能性を明らかにしている。

関連論文リスト

$\ exttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文参考訳（メタデータ） (2025-06-15T05:50:05Z)
TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-06-03T09:23:41Z)
Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文参考訳（メタデータ） (2025-05-19T11:30:41Z)
Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement [22.801244105119025]
精度と計算を効果的にトレードオフすることで、小型モデルによるトークン効率の推論を改善する新しいアルゴリズムを提案する。まず、SFT後のモデルが推論過程の最適停止点を決定するのに失敗し、冗長かつ反復的な出力が得られることを示す。 MATH500、AMC、AIME24、OlympiadBenchの4つの推論ベンチマークの実験は、TSがs1の予算強制アプローチと比較して非常に効果的であることを示した。
論文参考訳（メタデータ） (2025-05-12T18:04:39Z)
Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking [16.441081996257576]
本稿では, 簡易かつ効果的なテスト時間スケーリング手法としてマルチラウンド思考を提案する。この方法は、その後のラウンドのプロンプトとして過去の回答を活用することにより、モデル推論を反復的に洗練する。 QwQ-32BやDeepSeek-R1など、複数のモデルにわたる実験は、一貫してパフォーマンス改善を示している。
論文参考訳（メタデータ） (2025-03-25T17:19:38Z)
START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2025-03-06T17:11:51Z)
s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文参考訳（メタデータ） (2025-01-31T18:48:08Z)
Boosting Logical Reasoning in Large Language Models through a New Framework: The Graph of Thought [7.356034193515096]
本稿は、TextitGraph of Thoughts (GoT)と呼ばれる先駆的なプロンプト技術について紹介する。提案手法は GPT-4 よりも優れ,各タスクに対して 89.7%$, 86%$, 56%$ の精度向上を実現した。最先端のプロンプトメソッドである textitTree of Thought (ToT) を併用すると,我々のアプローチでは,平均精度が23%,24%,15%向上した。
論文参考訳（メタデータ） (2023-08-16T18:13:27Z)
Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-12-16T11:15:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。