Fugu-MT 論文翻訳(概要): Understanding the Role of Training Data in Test-Time Scaling

論文の概要: Understanding the Role of Training Data in Test-Time Scaling

arxiv url: http://arxiv.org/abs/2510.03605v1
Date: Sat, 04 Oct 2025 01:38:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 16:52:59.147319
Title: Understanding the Role of Training Data in Test-Time Scaling
Title（参考訳）: テストタイムスケーリングにおけるトレーニングデータの役割を理解する
Authors: Adel Javanmard, Baharan Mirzasoleiman, Vahab Mirrokni,
Abstract要約: 線形回帰のための文脈内重み予測タスクを訓練した変圧器の試験時間スケーリング性能について検討した。多様な、関連性があり、難しいタスクセットでのトレーニングが、テスト時間のスケーリングに最高のパフォーマンスをもたらすことを示す。
参考スコア（独自算出の注目度）: 56.12341509545198
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Test-time scaling improves the reasoning capabilities of large language models (LLMs) by allocating extra compute to generate longer Chains-of-Thoughts (CoTs). This enables models to tackle more complex problem by breaking them down into additional steps, backtracking, and correcting mistakes. Despite its strong performance--demonstrated by OpenAI's o1 and DeepSeek R1, the conditions in the training data under which long CoTs emerge, and when such long CoTs improve the performance, remain unclear. In this paper, we study the performance of test-time scaling for transformers trained on an in-context weight prediction task for linear regression. Our analysis provides a theoretical explanation for several intriguing observations: First, at any fixed test error, increasing test-time compute allows us to reduce the number of in-context examples (context length) in training prompts. Second, if the skills required to solve a downstream task are not sufficiently present in the training data, increasing test-time compute can harm performance. Finally, we characterize task hardness via the smallest eigenvalue of its feature covariance matrix and show that training on a diverse, relevant, and hard set of tasks results in best performance for test-time scaling. We confirm our findings with experiments on large, nonlinear transformer architectures.
Abstract（参考訳）: テストタイムスケーリングは、より大きな言語モデル(LLM)の推論能力を改善し、余分な計算を割り当てて、より長いチェーン・オブ・ソート(CoT)を生成する。これにより、モデルがさらなるステップに分割し、バックトラックし、ミスを修正することで、より複雑な問題に取り組むことが可能になる。 OpenAIのo1とDeepSeek R1によって実証された強力な性能にもかかわらず、長いCoTが出現し、そのような長いCoTがパフォーマンスを改善した場合のトレーニングデータの条件は不明確である。本稿では,線形回帰のための文脈内重み予測タスクを訓練した変圧器の試験時間スケーリング性能について検討する。まず、任意の固定テストエラーにおいて、テスト時間計算の増加により、トレーニングプロンプトにおけるコンテキスト内例(コンテキスト長)の数を減らすことができる。第2に、ダウンストリームタスクを解決するために必要なスキルがトレーニングデータに十分に存在しない場合、テスト時間計算の増加がパフォーマンスを損なう可能性がある。最後に、特徴共分散行列の最小固有値を用いてタスクの難易度を特徴付け、多種多様で関連性があり、難易度の高いタスクのトレーニングがテスト時間スケーリングに最適なパフォーマンスをもたらすことを示す。大規模な非線形トランスアーキテクチャの実験により,本研究の成果を確認した。

関連論文リスト

Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning [32.45574194957491]
クロスエントロピー損失のあるトレーニングは、パス@Nのパス@Nの精度$itは、長いトレーニングで$$を下げることを示す。モデル信頼性を制限し、pass@Nテストのパフォーマンスを回復することにより、pass@Nに整合した、原則化された修正されたトレーニング損失を提案する。
論文参考訳（メタデータ） (2025-02-11T00:33:31Z)
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文参考訳（メタデータ） (2024-08-06T17:35:05Z)
Exploring Learning Complexity for Efficient Downstream Dataset Pruning [8.990878450631596]
既存のデータセットプルーニングメソッドでは、データセット全体のトレーニングが必要になる。本稿では、DLC(Distorting-based Learning Complexity)という、単純で、新規で、トレーニング不要な難易度スコアを提案する。本手法は,より高速に学習できるサンプルを少ないパラメータで学習できるという観察結果に動機付けられている。
論文参考訳（メタデータ） (2024-02-08T02:29:33Z)
Efficient Grammatical Error Correction Via Multi-Task Training and Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文参考訳（メタデータ） (2023-11-20T14:50:12Z)
How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文参考訳（メタデータ） (2023-10-12T15:01:43Z)
Robust Learning with Progressive Data Expansion Against Spurious Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-06-08T05:44:06Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。