論文の概要: Input Time Scaling
- arxiv url: http://arxiv.org/abs/2508.13654v1
- Date: Tue, 19 Aug 2025 09:04:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.867196
- Title: Input Time Scaling
- Title(参考訳): 入力時間スケーリング
- Authors: Rapheal Huang, Weilong Guo,
- Abstract要約: 本稿では,クエリにリソースを配置することで,従来のスケーリング手法を補完する,新しいスケーリングパラダイムであるInput Time Scalingを提案する。
一見データ品質の低いデータセットがハイパフォーマンスになることに驚きました。
AIME24 (76.7%) と AIME25 (76.7%) のパス@1。
- 参考スコア(独自算出の注目度): 0.11049608786515838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Large Language Models (LLMs) are usually post-trained on large-scale carefully curated datasets (data & training scaling) and doing reasoning in test time (inference time scaling). In this work, we present a new scaling paradigm, Input Time Scaling, to complement previous scaling methods by putting resources on queries (input time). During training and testing, we combine meta-knowledge from LLMs to refine inputs with different strategies. We also find a new phenomenon, training-testing co-design there. We need to apply query strategies during both training and testing. Only applying strategies on training or testing would seriously degrade the performance. We are also surprised to find that seemingly low data quality datasets can gain high performance. Adding irrelevant information to the queries, randomly selecting examples from a minimally filtered dataset, can even perform the best. These findings contradict the widely held inductive bias, "garbage in, garbage out". Curating datasets with seemingly high-quality data can even potentially limit the performance ceiling. In addition, models trained on more data with similar quality (15k VS 1k) perform worse, simple dataset size scaling should also be carefully inspected. The good news is that our findings are compatible with the Less is More phenomenon. A small set of examples is enough to evoke high-level reasoning ability. With experiments on models trained on Qwen2.5-32B-Instruct, we are able to reach SOTA performance among 32B models on AIME24(76.7%) and AIME25(76.7%) pass@1. We can further achieve AIME24(76.7%) and AIME25(80%) with a majority vote of three models. Starting from DeepSeek-R1-Distill-Qwen-32B, the best result would be 86.7% on AIME24 and 76.7% on AIME25. To facilitate reproducibility and further research, we are working on open-source our datasets, data pipelines, evaluation results, and checkpoints.
- Abstract(参考訳): 現在のLarge Language Models(LLM)は、通常、大規模にキュレートされたデータセット(データとトレーニングのスケーリング)でポストトレーニングされ、テスト時間(推論時間スケーリング)で推論が行われる。
本研究では,クエリにリソースを投入することで,従来のスケーリング手法を補完する,新しいスケーリングパラダイムであるInput Time Scalingを提案する。
トレーニングとテストの間、私たちはLSMからメタ知識を組み合わせ、異なる戦略で入力を洗練します。
また、トレーニングテストの共同設計という新たな現象も見つかりました。
トレーニングとテストの両方にクエリ戦略を適用する必要があります。
トレーニングやテストに戦略を適用するだけで、パフォーマンスが著しく低下します。
データ品質の低いデータセットがハイパフォーマンスになることに驚きました。
クエリに無関係な情報を加えることで、最小限にフィルタリングされたデータセットからランダムにサンプルを選択することで、ベストを尽くすことができます。
これらの知見は、広く支持されている誘導バイアスである「ガーベッジ・イン・ガベージ・イン・ガベージ・アウト」と矛盾する。
一見高品質なデータでデータセットをキュレートすると、パフォーマンスの上限が制限される可能性がある。
さらに、同様の品質(15k VS 1k)でトレーニングされたモデルの方がパフォーマンスが悪く、単純なデータセットサイズのスケーリングも慎重に検査する必要がある。
良いニュースは、私たちの発見がLess is More現象と互換性があることです。
例の小さなセットは、高いレベルの推論能力を引き起こすのに十分です。
Qwen2.5-32B-Instructでトレーニングされたモデルに対する実験により、AIME24(76.7%)およびAIME25(76.7%)pass@1で32Bモデル間でSOTA性能に達することができる。
AIME24 (76.7%) と AIME25 (80%) は3つのモデルの過半数で達成できる。
DeepSeek-R1-Distill-Qwen-32Bから始めて、最も良い結果はAIME24で86.7%、AIME25で76.7%となる。
再現性とさらなる研究を容易にするため、私たちはデータセット、データパイプライン、評価結果、チェックポイントのオープンソース化に取り組んでいます。
関連論文リスト
- Progressive Data Dropout: An Embarrassingly Simple Approach to Faster Training [26.65053392031144]
ハードデータマイニングとドロップアウトの洞察を活用するための,代替的なトレーニングパラダイムを提案する。
提案されたプログレッシブデータドロップアウトは、有効エポックの数をベースラインの12.4%に削減する。
驚くべきことに,提案手法は最大4.82%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-05-28T13:26:52Z) - DataDecide: How to Predict Best Pretraining Data with Small Experiments [67.95896457895404]
私たちはDataDecideのモデル、データ、評価を公開しています。
最大100Bトークン,最大1Bパラメータのモデルサイズ,および3つのランダムシードを用いて,25コーパスにわたる事前学習実験を行った。
論文 参考訳(メタデータ) (2025-04-15T17:02:15Z) - Zephyr: Direct Distillation of LM Alignment [59.03530095974505]
ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。
従来の研究では、より大規模なモデルに教師付き微調整(dSFT)を適用することにより、タスクの精度が大幅に向上することが示されている。
蒸留直接選好最適化(dDPO)を用いて,意図のアライメントを大幅に改善したチャットモデルを学習する。
論文 参考訳(メタデータ) (2023-10-25T19:25:16Z) - Large-scale Dataset Pruning with Dynamic Uncertainty [28.60845105174658]
画像分類などの多くの学習タスクの最先端技術は、より大きなデータセットを収集して、より大きなモデルをトレーニングすることによって進歩している。
本稿では,大規模データセットの創出方法について検討し,非無視的な性能低下を伴う高度な深層モデルのトレーニングを行うための情報サブセットを作成する。
論文 参考訳(メタデータ) (2023-06-08T13:14:35Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - A contextual analysis of multi-layer perceptron models in classifying
hand-written digits and letters: limited resources [0.0]
我々は,前処理や特徴抽出を行わずに,終端から終端までのバニラニューラルネットワーク(MLP)アプローチを純粋に検証した。
基礎的なデータマイニング操作は,計算時間の観点からモデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2021-07-05T04:30:37Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。