Fugu-MT 論文翻訳(概要): Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

論文の概要: Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

arxiv url: http://arxiv.org/abs/2502.06703v1
Date: Mon, 10 Feb 2025 17:30:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:51.568337
Title: Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
Title（参考訳）: 1B LLMは405B LLMを通過できるか? 最適テスト時間スケーリングを再考する
Authors: Runze Liu, Junqi Gao, Jian Zhao, Kaiyan Zhang, Xiu Li, Biqing Qi, Wanli Ouyang, Bowen Zhou,
Abstract要約: テスト時間スケーリングは、大規模言語モデルの性能を向上させる重要な方法である。異なるポリシーモデル、PRM、問題の難易度にまたがってテスト時間計算をスケールするための最適なアプローチは何か? 計算-最適TS戦略により、非常に小さなポリシーモデルがより大きなモデルより優れていることを示す。
参考スコア（独自算出の注目度）: 69.57918638435491
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Test-Time Scaling (TTS) is an important method for improving the performance of Large Language Models (LLMs) by using additional computation during the inference phase. However, current studies do not systematically analyze how policy models, Process Reward Models (PRMs), and problem difficulty influence TTS. This lack of analysis limits the understanding and practical use of TTS methods. In this paper, we focus on two core questions: (1) What is the optimal approach to scale test-time computation across different policy models, PRMs, and problem difficulty levels? (2) To what extent can extended computation improve the performance of LLMs on complex tasks, and can smaller language models outperform larger ones through this approach? Through comprehensive experiments on MATH-500 and challenging AIME24 tasks, we have the following observations: (1) The compute-optimal TTS strategy is highly dependent on the choice of policy model, PRM, and problem difficulty. (2) With our compute-optimal TTS strategy, extremely small policy models can outperform larger models. For example, a 1B LLM can exceed a 405B LLM on MATH-500. Moreover, on both MATH-500 and AIME24, a 0.5B LLM outperforms GPT-4o, a 3B LLM surpasses a 405B LLM, and a 7B LLM beats o1 and DeepSeek-R1, while with higher inference efficiency. These findings show the significance of adapting TTS strategies to the specific characteristics of each task and model and indicate that TTS is a promising approach for enhancing the reasoning abilities of LLMs.
Abstract（参考訳）: テスト時間スケーリング(TTS)は、推論フェーズ中に追加計算を使用することで、大規模言語モデル(LLM)の性能を向上させる重要な手法である。しかし、現在の研究では、政策モデル、プロセス・リワード・モデル(PRM)、問題困難がTSに与える影響を体系的に分析していない。この分析の欠如により、TS法の理解と実用化が制限される。本稿では,(1)異なるポリシーモデル, PRM, 問題難易度にまたがってテスト時間計算をスケールするための最適なアプローチは何か,という2つの質問に焦点をあてる。 2) 複雑なタスクにおけるLLMの性能をどの程度向上させることができるのか。 MATH-500とAIME24タスクの総合的な実験を通じて,(1)計算最適TS戦略は,政策モデルの選択,PRM,問題の難易度に大きく依存する。 2) 計算最適TS戦略では, 極めて小さなポリシーモデルの方が, より大きなモデルより優れている。例えば、1B LLM は MATH-500 上で 405B LLM を超えることができる。さらに、MATH-500およびAIME24では、0.5B LLMがGPT-4oより優れ、3B LLMが405B LLMを超え、7B LLMがo1及びDeepSeek-R1を上回り、推論効率が高い。これらの結果は,各タスクやモデルの特徴にTS戦略を適用することの重要性を示し,RTSがLCMの推論能力を高めるための有望なアプローチであることを示す。

関連論文リスト

How to Train Your LLM Web Agent: A Statistical Diagnosis [102.04125085041473]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文参考訳（メタデータ） (2025-07-05T17:12:33Z)
Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文参考訳（メタデータ） (2025-05-23T16:51:54Z)
How Difficulty-Aware Staged Reinforcement Learning Enhances LLMs' Reasoning Capabilities: A Preliminary Experimental Study [16.441081996257576]
本稿では,難易度の高い強化学習戦略が推論性能を大幅に向上させる方法について,厳密な実験的検討を行った。本研究は,RLの最適化を著しく向上させることを特徴とする,明確な難易度に応じて,戦略的にトレーニングデータを選択することを示す。私たちはデータセットをGitHubとHugging Faceでオープンソース化します。
論文参考訳（メタデータ） (2025-04-01T14:18:38Z)
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [55.330813919992465]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文参考訳（メタデータ） (2025-04-01T13:13:43Z)
Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文参考訳（メタデータ） (2025-02-17T16:56:23Z)
Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文参考訳（メタデータ） (2025-01-20T18:33:33Z)
A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B [11.832907585157638]
本稿では、7Bから405Bのモデルにおける命令調整型LLMの性能を評価する。我々は6つのタスクタイプ(常識Q&A、知識と言語理解、指示追従、幻覚検出、数学、対話)のパフォーマンスを評価する。
論文参考訳（メタデータ） (2024-09-17T10:31:37Z)
Online Cascade Learning for Efficient Inference over Streams [9.516197133796437]
大規模言語モデル(LLM)は、データストリームに関する複雑なクエリに応答する自然な役割を持つ。この課題に対処する最初のアプローチであるオンラインカスケード学習を提案する。我々は,オンラインでカスケードを学習するタスクを模倣学習問題として定式化する。
論文参考訳（メタデータ） (2024-02-07T01:46:50Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文参考訳（メタデータ） (2023-07-31T13:26:03Z)
TART: A plug-and-play Transformer module for task-agnostic reasoning [38.84903599406189]
大規模言語モデル(LLM)は、同じモデルがタスク固有のトレーニングを使わずに複数のタスクを実行できる、コンテキスト内学習能力を示す。微調整のような従来の適応アプローチは、特定のタスクごとに基礎となるモデルを変更する。合成学習したTransformerベースの推論モジュールを用いて,LLMの推論能力を汎用的に向上するTARTを提案する。
論文参考訳（メタデータ） (2023-06-13T04:37:00Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。