Fugu-MT 論文翻訳(概要): T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models

論文の概要: T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models

arxiv url: http://arxiv.org/abs/2504.04718v1
Date: Mon, 07 Apr 2025 04:01:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-15 21:56:19.184449
Title: T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models
Title（参考訳）: T1:小言語モデルにおけるテスト時間計算スケーリングのためのツール統合自己検証
Authors: Minki Kang, Jongwon Jeong, Jaewoong Cho,
Abstract要約: テスト時間スケーリングにおいて,小言語モデル(sLM)がアウトプットを確実に自己検証できるかどうかを検討する。本稿では,コードインタプリタなどの外部ツールに多量の検証ステップを委譲するツール統合自己検証(T1)を提案する。理論解析により,ツール統合は記憶の要求を減らし,テストタイムのスケーリング性能を向上することが示された。
参考スコア（独自算出の注目度）: 9.674458633565111
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies have demonstrated that test-time compute scaling effectively improves the performance of small language models (sLMs). However, prior research has mainly examined test-time compute scaling with an additional larger model as a verifier, leaving self-verification by sLMs underexplored. In this work, we investigate whether sLMs can reliably self-verify their outputs under test-time scaling. We find that even with knowledge distillation from larger verifiers, sLMs struggle with verification tasks requiring memorization, such as numerical calculations and fact-checking. To address this limitation, we propose Tool-integrated self-verification (T1), which delegates memorization-heavy verification steps to external tools, such as a code interpreter. Our theoretical analysis shows that tool integration reduces memorization demands and improves test-time scaling performance. Experiments on the MATH benchmark demonstrate that, with T1, a Llama-3.2 1B model under test-time scaling outperforms the significantly larger Llama-3.1 8B model. Moreover, T1 generalizes effectively to both mathematical (MATH500) and multi-domain knowledge-intensive tasks (MMLU-Pro). Our findings highlight the potential of tool integration to substantially improve the self-verification abilities of sLMs.
Abstract（参考訳）: 近年の研究では、テスト時間計算のスケーリングにより、小型言語モデル(sLM)の性能が効果的に向上することが示されている。しかし、従来の研究では、検証対象としてより大きなモデルを用いたテスト時間計算のスケーリングを主に検討しており、SLMによる自己検証は未検討のままである。本研究では,テスト時間スケーリングにおいて,sLMが出力を確実に自己検証できるかどうかを検討する。より大規模な検証器からの知識蒸留においても,数値計算やファクトチェックなど,記憶を必要とする検証作業に苦慮していることがわかった。この制限に対処するため、コードインタプリタなどの外部ツールに記憶量の多い検証手順を委譲するツール統合自己検証(T1)を提案する。理論解析により,ツール統合は記憶の要求を減らし,テストタイムのスケーリング性能を向上することが示された。 MATHベンチマークの実験では、T1では、テスト時間スケーリング時のLlama-3.2 1Bモデルが、かなり大きなLlama-3.1 8Bモデルより優れていたことが示されている。さらに、T1は数学(MATH500)と多領域知識集約タスク(MMLU-Pro)の両方に効果的に一般化する。本研究は,SLMの自己検証能力を大幅に向上させるツール統合の可能性を明らかにするものである。

関連論文リスト

Self-Improving LLM Agents at Test-Time [49.9396634315896]
言語モデル(LM)の1つのパラダイムは、大規模なトレーニングデータセットの作成に依存している。実際には、大量のデータを集めることは非効率であり、それらのトレーニングは違法に高価である。テスト時間自己改善(TT-SI)とテスト時間蒸留(TT-D)の2つのバリエーションについて検討する。
論文参考訳（メタデータ） (2025-10-09T06:37:35Z)
Understanding the Role of Training Data in Test-Time Scaling [56.12341509545198]
線形回帰のための文脈内重み予測タスクを訓練した変圧器の試験時間スケーリング性能について検討した。多様な、関連性があり、難しいタスクセットでのトレーニングが、テスト時間のスケーリングに最高のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2025-10-04T01:38:48Z)
Scaling Test-time Compute for LLM Agents [51.790752085445384]
テスト時間計算のスケールアップは、大規模言語モデル(LLM)の推論能力の向上に顕著な成功を収めた。本研究では,テスト時間スケーリング手法を言語エージェントに適用する最初の体系的な検討を行う。
論文参考訳（メタデータ） (2025-06-15T17:59:47Z)
Test-Time Learning for Large Language Models [33.11605667376906]
大規模言語モデル(LLM)のためのテスト時間学習(TTL)パラダイムを提案する。 LLMはテスト中にラベルなしのテストデータのみを使用してターゲットドメインに動的に適応する。 TLMはドメイン知識適応における元のLLMと比較して少なくとも20%性能が向上することを示す。
論文参考訳（メタデータ） (2025-05-27T02:18:59Z)
Scaling over Scaling: Exploring Test-Time Scaling Plateau in Large Reasoning Models [7.2703757624760526]
大規模推論モデル(LRM)は、内部テストタイムスケーリングによる推論性能の向上能力を示した。これらのスケーリング境界を推し進めるにつれて、現実的な限界を理解し、最適なリソース割り当てを達成することが重要な課題となります。本稿では,テストタイムスケーリングのスケーリングプレートを調査し,TTSPM(Test-Time Scaling Performance Model)を導入する。
論文参考訳（メタデータ） (2025-05-26T20:58:45Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers [36.1723136776532]
マルチエージェント検証(Multi-Agent Verification、MAV)は、複数の検証器を組み合わせて性能を向上させるテスト時間計算パラダイムである。我々は,n個のベスト・オブ・nサンプリングと複数の検証器を組み合わせた,単純なマルチエージェント検証アルゴリズムであるBoN-MAVを紹介する。この結果から,テスト時の言語モデルの性能向上に期待できる新たな次元として,検証者の数を拡大することが確認できた。
論文参考訳（メタデータ） (2025-02-27T18:53:30Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文参考訳（メタデータ） (2025-02-17T18:43:24Z)
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文参考訳（メタデータ） (2025-02-17T07:21:11Z)
SETS: Leveraging Self-Verification and Self-Correction for Improved Test-Time Scaling [36.76945841119825]
自己拡張テスト時間スケーリング(SETS)は、サンプリング、自己検証、自己補正を統一されたフレームワークに統合する新しい手法である。 SETSは、大幅なパフォーマンス改善と、より好ましいテストタイムスケーリング法則を実現している。
論文参考訳（メタデータ） (2025-01-31T17:03:16Z)
Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文参考訳（メタデータ） (2025-01-20T18:33:33Z)
Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models [28.67532617021655]
外部ツールやAPIと統合された大規模言語モデル(LLM)は、コンテキスト内学習や微調整によって複雑なタスクにうまく対応している。この進歩にもかかわらず、厳密な入力長制約のため、ツール検索の大規模化は依然として困難である。本稿では,大規模なツール検索(MTR)タスクとして,大規模リポジトリからの事前検索戦略を提案する。
論文参考訳（メタデータ） (2024-10-04T07:58:05Z)
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文参考訳（メタデータ） (2024-08-06T17:35:05Z)
Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文参考訳（メタデータ） (2023-05-24T01:46:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。