論文の概要: RedStar: Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems?
- arxiv url: http://arxiv.org/abs/2501.11284v1
- Date: Mon, 20 Jan 2025 05:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:29.538758
- Title: RedStar: Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems?
- Title(参考訳): RedStar: 長時間CoTデータのスケーリングはスロー推論システムより優れているか?
- Authors: Haotian Xu, Xing Wu, Weinong Wang, Zhongzhi Li, Da Zheng, Boyuan Chen, Yi Hu, Shijia Kang, Jiaming Ji, Yingying Zhang, Zhijiang Guo, Yaodong Yang, Muhan Zhang, Debing Zhang,
- Abstract要約: 我々は、Long Chain-of-Thought(Long-CoT)データを1000kサンプルにスケールアップする未解決の可能性を探求し、スロー思考モデルであるRedStarの開発を開拓した。
驚くべきことに、たとえ小さなモデルであっても、限られたデータで大きなパフォーマンス向上を示し、Long-CoTのサンプル効率を明らかにしている。
MATH-Hardベンチマークでは、RedStar-code-mathが66.2%から81.6%に向上し、USA Math Olympiad (AIME)では21kの混合コード-mathデータセットを使用して46.7%の問題を解決している。
- 参考スコア(独自算出の注目度): 40.575978129688586
- License:
- Abstract: Can scaling transform reasoning? In this work, we explore the untapped potential of scaling Long Chain-of-Thought (Long-CoT) data to 1000k samples, pioneering the development of a slow-thinking model, RedStar. Through extensive experiments with various LLMs and different sizes, we uncover the ingredients for specialization and scale for Long-CoT training. Surprisingly, even smaller models show significant performance gains with limited data, revealing the sample efficiency of Long-CoT and the critical role of sample difficulty in the learning process. Our findings demonstrate that Long-CoT reasoning can be effectively triggered with just a few thousand examples, while larger models achieve unparalleled improvements. We also introduce reinforcement learning (RL)-scale training as a promising direction for advancing slow-thinking systems. RedStar shines across domains: on the MATH-Hard benchmark, RedStar-code-math boosts performance from 66.2\% to 81.6\%, and on the USA Math Olympiad (AIME), it solves 46.7\% of problems using only 21k mixed-code-math datasets. In multimodal tasks like GeoQA and MathVista-GEO, RedStar-Geo achieves competitive results with minimal Long-CoT data, outperforming other slow-thinking systems like QvQ-Preview. Compared to QwQ, RedStar strikes the perfect balance between reasoning and generalizability. Our work highlights that, with careful tuning, scaling Long-CoT can unlock extraordinary reasoning capabilities-even with limited dataset and set a new standard for slow-thinking models across diverse challenges. Our data and models are released at https://huggingface.co/RedStar-Reasoning.
- Abstract(参考訳): スケーリングはトランスフォーメーションの推論を可能にするか?
本研究では,Long Chain-of-Thought(Long-CoT)データを1000kサンプルにスケールアップする未解決の可能性を探求する。
各種LLMおよび各種サイズを用いた広範囲な実験により,Long-CoTトレーニングの専門化とスケールのための材料を明らかにした。
驚くべきことに、たとえ小さなモデルであっても、限られたデータで顕著なパフォーマンス向上を示し、Long-CoTのサンプル効率と学習過程におけるサンプル困難の重要な役割を明らかにしている。
以上の結果から,Long-CoT推論は数千の例で効果的にトリガできることが示唆された。
また、緩やかな思考システムを前進させる上で有望な方向として、強化学習(RL)スケールトレーニングを導入する。
MATH-Hardベンチマークでは、RedStar-code-mathが66.2\%から81.6\%に向上し、USA Math Olympiad (AIME)では、21kの混合コード-mathデータセットを使用して46.7%の問題を解決する。
GeoQAやMathVista-GEOのようなマルチモーダルタスクでは、RedStar-Geoは最小限のLong-CoTデータで競合する結果を得る。
QwQと比較すると、RedStarは推論と一般化のバランスが完璧である。
私たちの研究は、注意深いチューニングによって、Long-CoTのスケーリングは、データセットが限られている場合でも、異常な推論機能をアンロックし、さまざまな課題にまたがるスローシンキングモデルの新たな標準を設定できることを強調しています。
私たちのデータとモデルはhttps://huggingface.co/RedStar-Reasoning.comで公開されています。
関連論文リスト
- Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Testing RadiX-Nets: Advances in Viable Sparse Topologies [0.9555447998395205]
ハイパーパラメタライズドディープニューラルネットワーク(DNN)のスパシフィケーションは、複雑なデータのより単純な表現を生成する。
DNNのサブグループであるRadiX-Netsは、ニューラルネットワークの欠如に対処するランタイムを維持している。
本稿では,スケーラブルモデルにおけるRadiX-Netsのテストスイートを提案する。
論文 参考訳(メタデータ) (2023-11-06T23:27:28Z) - Detach-ROCKET: Sequential feature selection for time series classification with random convolutional kernels [0.7499722271664144]
ROCKETに基づくモデルにおいて, 逐次的特徴分離(Sequential Feature Detachment, SFD)を導入する。
SFDは、オリジナルの機能の10%しか使用せずに、より良いテスト精度でモデルを作成することができる。
また,特徴量とモデル精度の最適バランスを決定するためのエンドツーエンドの手法を提案する。
論文 参考訳(メタデータ) (2023-09-25T20:24:36Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - Predict NAS Multi-Task by Stacking Ensemble Models using GP-NAS [1.819714933798177]
オーバーフィッティングを克服するためにデータセットを分析してトレーニングする方法が、私たちが対処すべき中核的な問題です。
我々の積み重ねモデルはCVPR 2022トラック2チャレンジで1位にランクインした。
論文 参考訳(メタデータ) (2023-05-02T13:59:58Z) - Dynamic Query Selection for Fast Visual Perceiver [42.07082299370995]
精度低下を抑えつつ、推論中のクエリQ数を削減し、Perceiversをさらに効率的にする方法を示す。
本研究では,精度低下を抑えつつ,推論中のクエリQ数を削減し,Perceiversをより効率的にする方法を検討する。
論文 参考訳(メタデータ) (2022-05-22T17:23:51Z) - Long-tailed Recognition by Routing Diverse Distribution-Aware Experts [64.71102030006422]
我々は、RoutIng Diverse Experts (RIDE) と呼ばれる新しい長い尾の分類器を提案する。
複数の専門家とのモデルの分散を減らし、分布を考慮した多様性損失によるモデルバイアスを減らし、動的専門家ルーティングモジュールによる計算コストを削減します。
RIDEは、CIFAR100-LT、ImageNet-LT、iNaturalist 2018ベンチマークで最先端を5%から7%上回っている。
論文 参考訳(メタデータ) (2020-10-05T06:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。