論文の概要: Understanding the Role of Training Data in Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2510.03605v1
- Date: Sat, 04 Oct 2025 01:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.147319
- Title: Understanding the Role of Training Data in Test-Time Scaling
- Title(参考訳): テストタイムスケーリングにおけるトレーニングデータの役割を理解する
- Authors: Adel Javanmard, Baharan Mirzasoleiman, Vahab Mirrokni,
- Abstract要約: 線形回帰のための文脈内重み予測タスクを訓練した変圧器の試験時間スケーリング性能について検討した。
多様な、関連性があり、難しいタスクセットでのトレーニングが、テスト時間のスケーリングに最高のパフォーマンスをもたらすことを示す。
- 参考スコア(独自算出の注目度): 56.12341509545198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling improves the reasoning capabilities of large language models (LLMs) by allocating extra compute to generate longer Chains-of-Thoughts (CoTs). This enables models to tackle more complex problem by breaking them down into additional steps, backtracking, and correcting mistakes. Despite its strong performance--demonstrated by OpenAI's o1 and DeepSeek R1, the conditions in the training data under which long CoTs emerge, and when such long CoTs improve the performance, remain unclear. In this paper, we study the performance of test-time scaling for transformers trained on an in-context weight prediction task for linear regression. Our analysis provides a theoretical explanation for several intriguing observations: First, at any fixed test error, increasing test-time compute allows us to reduce the number of in-context examples (context length) in training prompts. Second, if the skills required to solve a downstream task are not sufficiently present in the training data, increasing test-time compute can harm performance. Finally, we characterize task hardness via the smallest eigenvalue of its feature covariance matrix and show that training on a diverse, relevant, and hard set of tasks results in best performance for test-time scaling. We confirm our findings with experiments on large, nonlinear transformer architectures.
- Abstract(参考訳): テストタイムスケーリングは、より大きな言語モデル(LLM)の推論能力を改善し、余分な計算を割り当てて、より長いチェーン・オブ・ソート(CoT)を生成する。
これにより、モデルがさらなるステップに分割し、バックトラックし、ミスを修正することで、より複雑な問題に取り組むことが可能になる。
OpenAIのo1とDeepSeek R1によって実証された強力な性能にもかかわらず、長いCoTが出現し、そのような長いCoTがパフォーマンスを改善した場合のトレーニングデータの条件は不明確である。
本稿では,線形回帰のための文脈内重み予測タスクを訓練した変圧器の試験時間スケーリング性能について検討する。
まず、任意の固定テストエラーにおいて、テスト時間計算の増加により、トレーニングプロンプトにおけるコンテキスト内例(コンテキスト長)の数を減らすことができる。
第2に、ダウンストリームタスクを解決するために必要なスキルがトレーニングデータに十分に存在しない場合、テスト時間計算の増加がパフォーマンスを損なう可能性がある。
最後に、特徴共分散行列の最小固有値を用いてタスクの難易度を特徴付け、多種多様で関連性があり、難易度の高いタスクのトレーニングがテスト時間スケーリングに最適なパフォーマンスをもたらすことを示す。
大規模な非線形トランスアーキテクチャの実験により,本研究の成果を確認した。
関連論文リスト
- Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [108.07030347318624]
より長い思考の連鎖(CoTs)によるスケーリングは、特定の領域におけるLarge Language Models(LLMs)の推論性能を損なう可能性があることを示す。
深層思考に異なる推論手法を採用するためのモデルを教えるための思考-最適スケーリング戦略を提案する。
我々のQwen2.5-32B-Instructに基づく自己改善モデルは、様々なベンチマークで他の蒸留ベースの32B o1-likeモデルより優れています。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - Learning to Stop Overthinking at Test Time [1.0356759327536202]
テスト時間のスケーリングは、トレーニング時間のスケーリングが限界に達した後に約束される、最も活発な研究領域の1つです。
テスト時間における各サンプルに必要な最適な計算量を決定するためのテスト時間トレーニング手法を提案する。
また,より効率的かつ堅牢な視覚推論のための新しい繰り返しアーキテクチャであるConv-LiGRUを提案する。
論文 参考訳(メタデータ) (2025-02-16T02:17:05Z) - Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning [32.45574194957491]
クロスエントロピー損失のあるトレーニングは、パス@Nのパス@Nの精度$itは、長いトレーニングで$$を下げることを示す。
モデル信頼性を制限し、pass@Nテストのパフォーマンスを回復することにより、pass@Nに整合した、原則化された修正されたトレーニング損失を提案する。
論文 参考訳(メタデータ) (2025-02-11T00:33:31Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - Does learning the right latent variables necessarily improve in-context learning? [13.168329639763678]
Transformersのような大規模な自己回帰モデルは、新しい重みを学習することなく、コンテキスト内学習(ICL)によってタスクを解決できる。
本稿では,タスクラテントを明示的に推論する効果について検討する。
タスク関連潜伏変数への偏りは、分配性能を向上させるには至らない。
論文 参考訳(メタデータ) (2024-05-29T15:06:10Z) - Exploring Learning Complexity for Efficient Downstream Dataset Pruning [8.990878450631596]
既存のデータセットプルーニングメソッドでは、データセット全体のトレーニングが必要になる。
本稿では、DLC(Distorting-based Learning Complexity)という、単純で、新規で、トレーニング不要な難易度スコアを提案する。
本手法は,より高速に学習できるサンプルを少ないパラメータで学習できるという観察結果に動機付けられている。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Sequence Length is a Domain: Length-based Overfitting in Transformer
Models [0.0]
機械翻訳において、ニューラルベースシステムは、前回のフレーズベースの翻訳アプローチと比較して非常に長いシーケンスでより良く動作する。
実験結果から, 実験結果から得られた実験結果から, 観測結果の減少は, 入力シーケンスの長さではなく, 学習中のモデルで見られる長さに対応する仮説長が原因であることが示唆された。
論文 参考訳(メタデータ) (2021-09-15T13:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。