論文の概要: Long Is More Important Than Difficult for Training Reasoning Models
- arxiv url: http://arxiv.org/abs/2503.18069v1
- Date: Sun, 23 Mar 2025 13:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:31:26.815263
- Title: Long Is More Important Than Difficult for Training Reasoning Models
- Title(参考訳): 推論モデルの訓練に苦慮する人より、長くは重要か
- Authors: Si Shen, Fei Huang, Zhixiao Zhao, Chang Liu, Tiansheng Zheng, Danhao Zhu,
- Abstract要約: 問題の難しさよりも推論長が、主に訓練されたモデルの性能に影響を及ぼすことを示す。
このモデルであるLong1K-32Bは,1,000のトレーニングサンプルだけで優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 21.369780872368143
- License:
- Abstract: Difficult problems, which often result in long reasoning traces, are widely recognized as key factors for enhancing the performance of reasoning models. However, such high-challenge problems are scarce, limiting the size of available datasets. In this paper, we propose a simple method to decouple the reliance on problem difficulty. First, we empirically demonstrate that reasoning length, rather than problem difficulty, primarily influences the performance of trained models. Second, we identify a scaling law on reasoning length, showing that model performance increases in a log-linear fashion as the reasoning data length grows. Finally, we introduce a straightforward technique to generate reasoning data of arbitrary length, and show that synthesized data is effective for training reasoning models. After fine-tuning the Qwen2.5-32B-Instruct language model on our Long1K dataset, we present our model, Long1K-32B, which achieves remarkable performance with only 1,000 training samples, achieving 95.6\% accuracy on MATH, and 71.1\% on GPQA outperforming DeepSeek-R1-Distill-Qwen-32B. The model, code, and dataset are all open-sourced, available at https://huggingface.co/ZTss/LONG1.
- Abstract(参考訳): 難解な問題はしばしば長い推論トレースをもたらすが、推論モデルの性能を高めるための重要な要因として広く認識されている。
しかし、そのような高度な問題は少ないため、利用可能なデータセットのサイズが制限される。
本稿では,問題問題への依存を分離する簡単な手法を提案する。
まず、問題の難しさではなく、推論長が主に訓練されたモデルの性能に影響を与えることを実証的に示す。
第二に、推論長のスケーリング法則を特定し、推論データ長が増加するにつれて、モデルの性能が対数線形的に増加することを示す。
最後に、任意の長さの推論データを生成するための簡単な手法を導入し、合成データが推論モデルの訓練に有効であることを示す。
我々は,Long1Kデータセット上でQwen2.5-32B-Instruct言語モデルを微調整した後,1000のトレーニングサンプルで優れたパフォーマンスを実現し,MATHでは95.6\%,GPQAでは71.1\%,DeepSeek-R1-Distill-Qwen-32Bでは71.1\%を達成した。
モデル、コード、データセットはすべてオープンソースで、https://huggingface.co/ZTss/LONG1.comで公開されている。
関連論文リスト
- LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation [88.77999917897702]
OpenAIのo1は、驚くべき推論機能を示している。
多くのチームがLongCoTと推論機能を再現しようと試みている。
本稿では,o1-likeモデルや高価な人体アノテーションを蒸留することなくLCMのLongCoTキャパシティを実現するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-06T08:19:59Z) - s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。
テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文 参考訳(メタデータ) (2025-01-31T18:48:08Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key [3.3339400603549265]
トレーニングデータインスタンスと計算処理の少ないチューニングモデルにおいて,顕著なパフォーマンス向上を実現することができることを示す。
本研究の結果から, 長期出力のキャパシティは, 既成モデルによって異なるが, 定性計算を用いて高品質なデータに調整するアプローチは, 実験したすべてのモデルに対して, 常に顕著な改善をもたらすことが示唆された。
論文 参考訳(メタデータ) (2024-10-14T07:09:02Z) - Orthogonal Uncertainty Representation of Data Manifold for Robust
Long-Tailed Learning [52.021899899683675]
長い尾の分布を持つシナリオでは、尾のサンプルが不足しているため、モデルが尾のクラスを識別する能力は制限される。
モデルロバストネスの長期的現象を改善するために,特徴埋め込みの直交不確実性表現(OUR)とエンドツーエンドのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-16T05:50:34Z) - Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - HiPool: Modeling Long Documents Using Graph Neural Networks [24.91040673099863]
自然言語処理(NLP)の長いシーケンスは難しい問題である。
最近の事前学習言語モデルは、多くのNLPタスクにおいて満足な性能を達成する。
我々は,最大53kのサンプルと平均トークンの長さ4034のデータセットを合計6つ集めて,新たな挑戦的ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-05-05T06:58:24Z) - A Simple and Interpretable Predictive Model for Healthcare [0.0]
ディープラーニングモデルは、現在、病気予測のための最先端のソリューションの大半を支配しています。
トレーニング可能なパラメータが数百万に分散したこれらのディープラーニングモデルは、トレーニングとデプロイに大量の計算とデータを必要とします。
EHRデータに適用するための,より単純かつ解釈可能な非深層学習モデルを開発した。
論文 参考訳(メタデータ) (2020-07-27T08:13:37Z) - Learning Interpretable Models Using Uncertainty Oracles [12.879371384378164]
解釈可能なモデルの望ましい性質は、人間によって容易に理解できるように、小さなサイズである。
a) 小さいサイズが正確さを暗示し、(b) サイズを制限するモデルファミリが提供するビースルークレバーは、望ましいサイズ精度のトレードオフに達するには不十分である。
論文 参考訳(メタデータ) (2019-06-17T05:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。