Fugu-MT 論文翻訳(概要): RedStar: Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems?

論文の概要: RedStar: Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems?

arxiv url: http://arxiv.org/abs/2501.11284v1
Date: Mon, 20 Jan 2025 05:44:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.351246
Title: RedStar: Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems?
Title（参考訳）: RedStar: 長時間CoTデータのスケーリングはスロー推論システムより優れているか?
Authors: Haotian Xu, Xing Wu, Weinong Wang, Zhongzhi Li, Da Zheng, Boyuan Chen, Yi Hu, Shijia Kang, Jiaming Ji, Yingying Zhang, Zhijiang Guo, Yaodong Yang, Muhan Zhang, Debing Zhang,
Abstract要約: 我々は、Long Chain-of-Thought(Long-CoT)データを1000kサンプルにスケールアップする未解決の可能性を探求し、スロー思考モデルであるRedStarの開発を開拓した。驚くべきことに、たとえ小さなモデルであっても、限られたデータで大きなパフォーマンス向上を示し、Long-CoTのサンプル効率を明らかにしている。 MATH-Hardベンチマークでは、RedStar-code-mathが66.2%から81.6%に向上し、USA Math Olympiad (AIME)では21kの混合コード-mathデータセットを使用して46.7%の問題を解決している。
参考スコア（独自算出の注目度）: 40.575978129688586
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Can scaling transform reasoning? In this work, we explore the untapped potential of scaling Long Chain-of-Thought (Long-CoT) data to 1000k samples, pioneering the development of a slow-thinking model, RedStar. Through extensive experiments with various LLMs and different sizes, we uncover the ingredients for specialization and scale for Long-CoT training. Surprisingly, even smaller models show significant performance gains with limited data, revealing the sample efficiency of Long-CoT and the critical role of sample difficulty in the learning process. Our findings demonstrate that Long-CoT reasoning can be effectively triggered with just a few thousand examples, while larger models achieve unparalleled improvements. We also introduce reinforcement learning (RL)-scale training as a promising direction for advancing slow-thinking systems. RedStar shines across domains: on the MATH-Hard benchmark, RedStar-code-math boosts performance from 66.2\% to 81.6\%, and on the USA Math Olympiad (AIME), it solves 46.7\% of problems using only 21k mixed-code-math datasets. In multimodal tasks like GeoQA and MathVista-GEO, RedStar-Geo achieves competitive results with minimal Long-CoT data, outperforming other slow-thinking systems like QvQ-Preview. Compared to QwQ, RedStar strikes the perfect balance between reasoning and generalizability. Our work highlights that, with careful tuning, scaling Long-CoT can unlock extraordinary reasoning capabilities-even with limited dataset and set a new standard for slow-thinking models across diverse challenges. Our data and models are released at https://huggingface.co/RedStar-Reasoning.
Abstract（参考訳）: スケーリングはトランスフォーメーションの推論を可能にするか? 本研究では,Long Chain-of-Thought(Long-CoT)データを1000kサンプルにスケールアップする未解決の可能性を探求する。各種LLMおよび各種サイズを用いた広範囲な実験により,Long-CoTトレーニングの専門化とスケールのための材料を明らかにした。驚くべきことに、たとえ小さなモデルであっても、限られたデータで顕著なパフォーマンス向上を示し、Long-CoTのサンプル効率と学習過程におけるサンプル困難の重要な役割を明らかにしている。以上の結果から,Long-CoT推論は数千の例で効果的にトリガできることが示唆された。また、緩やかな思考システムを前進させる上で有望な方向として、強化学習(RL)スケールトレーニングを導入する。 MATH-Hardベンチマークでは、RedStar-code-mathが66.2\%から81.6\%に向上し、USA Math Olympiad (AIME)では、21kの混合コード-mathデータセットを使用して46.7%の問題を解決する。 GeoQAやMathVista-GEOのようなマルチモーダルタスクでは、RedStar-Geoは最小限のLong-CoTデータで競合する結果を得る。 QwQと比較すると、RedStarは推論と一般化のバランスが完璧である。私たちの研究は、注意深いチューニングによって、Long-CoTのスケーリングは、データセットが限られている場合でも、異常な推論機能をアンロックし、さまざまな課題にまたがるスローシンキングモデルの新たな標準を設定できることを強調しています。私たちのデータとモデルはhttps://huggingface.co/RedStar-Reasoning.comで公開されています。

関連論文リスト

TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-06-03T09:23:41Z)
Test-Time Training Done Right [61.8429380523577]
テスト時間トレーニング(TTT)モデルは、推論中にモデルの重みの一部を適応させることによってコンテキストをモデル化する。既存のTT手法は、長文データを扱う上で有効性を示すのに苦労した。我々は,大規模チャンクテストタイムトレーニング(LaCT)を開発し,ハードウェア利用率を桁違いに向上させる。
論文参考訳（メタデータ） (2025-05-29T17:50:34Z)
Concise Reasoning, Big Gains: Pruning Long Reasoning Trace with Difficulty-Aware Prompting [28.537281448659634]
本稿では,性能損失を伴わない推論トレースを動的に短縮するDAP法を提案する。実験では、難解なCoTサンプルの100Kだけを微調整した学生モデルが800KのLong CoTサンプルで蒸留されたモデルより優れている。また,本手法は,11種類の多種多様なベンチマークにおいて,比較的少ないトークンを用いて,長鎖よりも短い難易度CoTの精度を向上する。
論文参考訳（メタデータ） (2025-05-26T09:04:44Z)
Efficient Reasoning for LLMs through Speculative Chain-of-Thought [44.76494056102963]
OpenAI-o1やDeepseek-R1のような大きな推論言語モデルは、タスク解決能力が優れていたため、広く注目を集めている。効率的な推論のための既存の方法は、主にモデルパラメータの数を減らしたり、チェーンオブ思考の長さを短縮することに焦点を当てている。本稿では,平均推論速度の高速化により推理遅延を他の視点から低減するSCoT(Speculative Chain-of-Thought)を提案する。
論文参考訳（メタデータ） (2025-04-27T03:56:39Z)
Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。我々は質問を4段階(易、中、硬、極度硬)に分類する。我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。エクレベルの質問は、根本的に異なる課題を示します。
論文参考訳（メタデータ） (2025-04-16T03:39:38Z)
Long Is More Important Than Difficult for Training Reasoning Models [21.369780872368143]
問題の難しさよりも推論長が、主に訓練されたモデルの性能に影響を及ぼすことを示す。このモデルであるLong1K-32Bは,1,000のトレーニングサンプルだけで優れた性能を発揮する。
論文参考訳（メタデータ） (2025-03-23T13:33:59Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組むまた,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文参考訳（メタデータ） (2025-02-11T08:48:48Z)
When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高めるしかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか? 本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文参考訳（メタデータ） (2025-02-11T05:28:59Z)
BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation [88.77999917897702]
OpenAIのo1は、驚くべき推論機能を示している。多くのチームがLongCoTと推論機能を再現しようと試みている。本稿では,o1-likeモデルや高価な人体アノテーションを蒸留することなくLCMのLongCoTキャパシティを実現するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-02-06T08:19:59Z)
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。 LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文参考訳（メタデータ） (2024-11-06T22:02:30Z)
DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文参考訳（メタデータ） (2024-01-10T14:38:46Z)
In Search of the Long-Tail: Systematic Generation of Long-Tail Inferential Knowledge via Logical Rule Guided Search [67.35240346713911]
推論知識の長期分布において,大規模言語モデル (LLM) を評価するための第一歩を踏み出す。 Linkは体系的なロングテールデータ生成フレームワークであり、事実的に正しいがロングテール推論ステートメントを取得する。次に、LINKを用いてLINT(Logic-induced-Long-Tail)をキュレートする。
論文参考訳（メタデータ） (2023-11-13T10:56:59Z)
Testing RadiX-Nets: Advances in Viable Sparse Topologies [0.9555447998395205]
ハイパーパラメタライズドディープニューラルネットワーク(DNN)のスパシフィケーションは、複雑なデータのより単純な表現を生成する。 DNNのサブグループであるRadiX-Netsは、ニューラルネットワークの欠如に対処するランタイムを維持している。本稿では,スケーラブルモデルにおけるRadiX-Netsのテストスイートを提案する。
論文参考訳（メタデータ） (2023-11-06T23:27:28Z)
Detach-ROCKET: Sequential feature selection for time series classification with random convolutional kernels [0.7499722271664144]
ROCKETに基づくモデルにおいて, 逐次的特徴分離(Sequential Feature Detachment, SFD)を導入する。 SFDは、オリジナルの機能の10%しか使用せずに、より良いテスト精度でモデルを作成することができる。また,特徴量とモデル精度の最適バランスを決定するためのエンドツーエンドの手法を提案する。
論文参考訳（メタデータ） (2023-09-25T20:24:36Z)
Dynamic Query Selection for Fast Visual Perceiver [42.07082299370995]
精度低下を抑えつつ、推論中のクエリQ数を削減し、Perceiversをさらに効率的にする方法を示す。本研究では,精度低下を抑えつつ,推論中のクエリQ数を削減し,Perceiversをより効率的にする方法を検討する。
論文参考訳（メタデータ） (2022-05-22T17:23:51Z)
Long-tailed Recognition by Routing Diverse Distribution-Aware Experts [64.71102030006422]
我々は、RoutIng Diverse Experts (RIDE) と呼ばれる新しい長い尾の分類器を提案する。複数の専門家とのモデルの分散を減らし、分布を考慮した多様性損失によるモデルバイアスを減らし、動的専門家ルーティングモジュールによる計算コストを削減します。 RIDEは、CIFAR100-LT、ImageNet-LT、iNaturalist 2018ベンチマークで最先端を5%から7%上回っている。
論文参考訳（メタデータ） (2020-10-05T06:53:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。