論文の概要: RedStar: Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems?
- arxiv url: http://arxiv.org/abs/2501.11284v1
- Date: Mon, 20 Jan 2025 05:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:29.538758
- Title: RedStar: Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems?
- Title(参考訳): RedStar: 長時間CoTデータのスケーリングはスロー推論システムより優れているか?
- Authors: Haotian Xu, Xing Wu, Weinong Wang, Zhongzhi Li, Da Zheng, Boyuan Chen, Yi Hu, Shijia Kang, Jiaming Ji, Yingying Zhang, Zhijiang Guo, Yaodong Yang, Muhan Zhang, Debing Zhang,
- Abstract要約: 我々は、Long Chain-of-Thought(Long-CoT)データを1000kサンプルにスケールアップする未解決の可能性を探求し、スロー思考モデルであるRedStarの開発を開拓した。
驚くべきことに、たとえ小さなモデルであっても、限られたデータで大きなパフォーマンス向上を示し、Long-CoTのサンプル効率を明らかにしている。
MATH-Hardベンチマークでは、RedStar-code-mathが66.2%から81.6%に向上し、USA Math Olympiad (AIME)では21kの混合コード-mathデータセットを使用して46.7%の問題を解決している。
- 参考スコア(独自算出の注目度): 40.575978129688586
- License:
- Abstract: Can scaling transform reasoning? In this work, we explore the untapped potential of scaling Long Chain-of-Thought (Long-CoT) data to 1000k samples, pioneering the development of a slow-thinking model, RedStar. Through extensive experiments with various LLMs and different sizes, we uncover the ingredients for specialization and scale for Long-CoT training. Surprisingly, even smaller models show significant performance gains with limited data, revealing the sample efficiency of Long-CoT and the critical role of sample difficulty in the learning process. Our findings demonstrate that Long-CoT reasoning can be effectively triggered with just a few thousand examples, while larger models achieve unparalleled improvements. We also introduce reinforcement learning (RL)-scale training as a promising direction for advancing slow-thinking systems. RedStar shines across domains: on the MATH-Hard benchmark, RedStar-code-math boosts performance from 66.2\% to 81.6\%, and on the USA Math Olympiad (AIME), it solves 46.7\% of problems using only 21k mixed-code-math datasets. In multimodal tasks like GeoQA and MathVista-GEO, RedStar-Geo achieves competitive results with minimal Long-CoT data, outperforming other slow-thinking systems like QvQ-Preview. Compared to QwQ, RedStar strikes the perfect balance between reasoning and generalizability. Our work highlights that, with careful tuning, scaling Long-CoT can unlock extraordinary reasoning capabilities-even with limited dataset and set a new standard for slow-thinking models across diverse challenges. Our data and models are released at https://huggingface.co/RedStar-Reasoning.
- Abstract(参考訳): スケーリングはトランスフォーメーションの推論を可能にするか?
本研究では,Long Chain-of-Thought(Long-CoT)データを1000kサンプルにスケールアップする未解決の可能性を探求する。
各種LLMおよび各種サイズを用いた広範囲な実験により,Long-CoTトレーニングの専門化とスケールのための材料を明らかにした。
驚くべきことに、たとえ小さなモデルであっても、限られたデータで顕著なパフォーマンス向上を示し、Long-CoTのサンプル効率と学習過程におけるサンプル困難の重要な役割を明らかにしている。
以上の結果から,Long-CoT推論は数千の例で効果的にトリガできることが示唆された。
また、緩やかな思考システムを前進させる上で有望な方向として、強化学習(RL)スケールトレーニングを導入する。
MATH-Hardベンチマークでは、RedStar-code-mathが66.2\%から81.6\%に向上し、USA Math Olympiad (AIME)では、21kの混合コード-mathデータセットを使用して46.7%の問題を解決する。
GeoQAやMathVista-GEOのようなマルチモーダルタスクでは、RedStar-Geoは最小限のLong-CoTデータで競合する結果を得る。
QwQと比較すると、RedStarは推論と一般化のバランスが完璧である。
私たちの研究は、注意深いチューニングによって、Long-CoTのスケーリングは、データセットが限られている場合でも、異常な推論機能をアンロックし、さまざまな課題にまたがるスローシンキングモデルの新たな標準を設定できることを強調しています。
私たちのデータとモデルはhttps://huggingface.co/RedStar-Reasoning.comで公開されています。
関連論文リスト
- Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation [88.77999917897702]
OpenAIのo1は、驚くべき推論機能を示している。
多くのチームがLongCoTと推論機能を再現しようと試みている。
本稿では,o1-likeモデルや高価な人体アノテーションを蒸留することなくLCMのLongCoTキャパシティを実現するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-06T08:19:59Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Testing RadiX-Nets: Advances in Viable Sparse Topologies [0.9555447998395205]
ハイパーパラメタライズドディープニューラルネットワーク(DNN)のスパシフィケーションは、複雑なデータのより単純な表現を生成する。
DNNのサブグループであるRadiX-Netsは、ニューラルネットワークの欠如に対処するランタイムを維持している。
本稿では,スケーラブルモデルにおけるRadiX-Netsのテストスイートを提案する。
論文 参考訳(メタデータ) (2023-11-06T23:27:28Z) - Dynamic Query Selection for Fast Visual Perceiver [42.07082299370995]
精度低下を抑えつつ、推論中のクエリQ数を削減し、Perceiversをさらに効率的にする方法を示す。
本研究では,精度低下を抑えつつ,推論中のクエリQ数を削減し,Perceiversをより効率的にする方法を検討する。
論文 参考訳(メタデータ) (2022-05-22T17:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。