論文の概要: Prompting Test-Time Scaling Is A Strong LLM Reasoning Data Augmentation
- arxiv url: http://arxiv.org/abs/2510.09599v1
- Date: Fri, 10 Oct 2025 17:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.51173
- Title: Prompting Test-Time Scaling Is A Strong LLM Reasoning Data Augmentation
- Title(参考訳): テスト時間スケーリングのプロンプトは、強力なLCM推論データ拡張
- Authors: Sondos Mahmoud Bsharat, Zhiqiang Shen,
- Abstract要約: 大型言語モデル (LLMs) は、チェーン・オブ・シンクタンク(英語版)を備えた場合、印象的な推論能力を示す。
本研究では,P-TTS(Prompting Test-Time Scaling)を提案する。
- 参考スコア(独自算出の注目度): 43.29267000439331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated impressive reasoning capabilities when provided with chain-of-thought exemplars, but curating large reasoning datasets remains laborious and resource-intensive. In this work, we introduce Prompting Test-Time Scaling (P-TTS), a simple yet effective inference-time data augmentation strategy for enhancing LLM reasoning through finetuning. Rather than collecting thousands or even millions of examples, P-TTS leverages a small pool of only 90 manually selected reasoning instances and systematically varies exemplar augmentation through principled instruction prompting intensities at test time to synthesize diverse reasoning trajectory contexts. Then we finetune the various sizes of Qwen-2.5 models on P-TTS data. Across a suite of mathematical reasoning AIME2024 & 25, MATH500, and GPQA-Diamond, our P-TTS-7B and 32B models outperform the prior competitive baselines like S1 and S1.1 (1K-shot), achieving absolute accuracy gains of +26.66% and +30.00% on AIME'24 (7B), and +13.34% and +6.67% on AIME'25 (7B); P-TTS-32B yields gains of +23.33% and +16.63% on AIME'24, and +26.63% and +3.33% on AIME'25 (vs. S1 and S1.1, respectively), with comparable or better performance on MATH500 and GPQA-Diamond. We further show that P-TTS enhances zero-shot generalization accuracy on out-of-domain reasoning benchmarks of Gaokao, Kaoyan, OlympiadBench, AMC23, GradeSchoolMath, and Minerva. Our analysis suggests that test-time scaling effectively explores the latent space of reasoning patterns, amplifying LLM problem-solving with minimal annotation overhead, and further unlocking the reasoning potential and capabilities of LLMs. Prompting Test-Time Scaling offers a practical, low-cost way to elicit LLM reasoning in resource-constrained or rapidly evolving domains.
- Abstract(参考訳): 大規模言語モデル(LLM)は、チェーン・オブ・プリンシパル(チェーン・オブ・プリンシパル)を備えた場合、印象的な推論能力を示してきたが、大きな推論データセットのキュレーションは依然として精力的でリソース集約的なままである。
本研究では,LLM推論を微調整により拡張するための簡易かつ効果的な推論時間データ拡張戦略であるP-TTSを提案する。
数千から数百万のサンプルを集める代わりに、P-TTSは90個の手作業で選択された推論インスタンスの小さなプールを活用し、テスト時にインテンシティを誘導する原理的な命令を通じて、様々な推論の軌跡を合成する。
次に、P-TTSデータに基づいてQwen-2.5モデルの様々なサイズを微調整する。
AIME2024 & 25 MATH500, GPQA-Diamondの一連の数学的推論において、我々のP-TTS-7Bと32Bモデルは、S1とS1.1 (1K-shot)のような以前の競争ベースラインよりも優れており、AIME'24 (7B) における絶対精度は +26.66%と +30.00%、AIME'25 (7B) では +13.34%と +6.67%、AIME'24 では +23.33%と +16.63%、AIME'25 では +26.63%、AIME'25 では +3.33%、AIME'25 (vs.S1と +3.33%である。
さらに, P-TTSはガオカオ, カオヤン, オリンピアドベンチ, AMC23, GradeSchoolMath, Minervaのドメイン外推論ベンチマークにおいて, ゼロショットの一般化精度を向上させることを示した。
分析の結果,テストタイムスケーリングは推論パターンの潜時空間を効果的に探索し,最小限のアノテーションオーバーヘッドでLLM問題の解法を増幅し,LLMの推論可能性と能力をさらに開放することを示唆した。
Prompting Test-Time Scalingは、リソース制約のあるドメインや急速に進化するドメインにおいて、LCM推論を実践的で低コストで引き出す方法を提供する。
関連論文リスト
- Dynamic Early Exit in Reasoning Models [21.30793518631921]
長いチェーン・オブ・シンクレット(CoT)生成における再考は、問題解決の効率を低下させるだけでなく、精度損失のリスクも引き起こす。
我々は,LLMが生成時に早期終了によってCoT配列を自己トランケートできる簡易かつ効果的な方法を提案する。
提案手法は追加のトレーニングを必要とせず,既存の o1 ライクな推論 LLM にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-04-22T13:36:53Z) - Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning [8.73181950200897]
本稿では,55言語における競合レベルの問題を特徴とする多言語数学ベンチマークMCLMを紹介する。
テスト時間スケーリングの3つのメソッドをテストします - Outcome Reward Modeling(ORM)、Process Reward Modeling(ORM)、Budget Forcing(BF)です。
実験の結果,Qwen2.5-1.5B Math with ORMはMCLMでは35.8,MR1-1.5BではBFは35.2であった。
論文 参考訳(メタデータ) (2025-02-24T18:36:15Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling [69.57918638435491]
テスト時間スケーリングは、大規模言語モデルの性能を向上させる重要な方法である。
異なるポリシーモデル、PRM、問題の難易度にまたがってテスト時間計算をスケールするための最適なアプローチは何か?
計算-最適TS戦略により、非常に小さなポリシーモデルがより大きなモデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-10T17:30:23Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - Hint of Pseudo Code (HoPC): Zero-Shot Step by Step Pseudo Code Reasoning Prompting [28.103214021041097]
本稿では,新しいHint of Pseudo Code(HoPC)プロンプト技術を紹介する。
HoPCはゼロショットCoTよりも強力なゼロショット問題分解とセマンティックコード推論機能を備えている。
論文 参考訳(メタデータ) (2023-05-19T06:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。