論文の概要: OpenThoughts: Data Recipes for Reasoning Models
- arxiv url: http://arxiv.org/abs/2506.04178v1
- Date: Wed, 04 Jun 2025 17:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.489581
- Title: OpenThoughts: Data Recipes for Reasoning Models
- Title(参考訳): OpenThoughts: 推論モデルのためのデータ準備
- Authors: Etash Guha, Ryan Marten, Sedrick Keh, Negin Raoof, Georgios Smyrnis, Hritik Bansal, Marianna Nezhurina, Jean Mercat, Trung Vu, Zayne Sprague, Ashima Suvarna, Benjamin Feuer, Liangyu Chen, Zaid Khan, Eric Frankel, Sachin Grover, Caroline Choi, Niklas Muennighoff, Shiye Su, Wanjia Zhao, John Yang, Shreyas Pimpalgaonkar, Kartik Sharma, Charlie Cheng-Jie Ji, Yichuan Deng, Sarah Pratt, Vivek Ramanujan, Jon Saad-Falcon, Jeffrey Li, Achal Dave, Alon Albalak, Kushal Arora, Blake Wulfe, Chinmay Hegde, Greg Durrett, Sewoong Oh, Mohit Bansal, Saadia Gabriel, Aditya Grover, Kai-Wei Chang, Vaishaal Shankar, Aaron Gokaslan, Mike A. Merrill, Tatsunori Hashimoto, Yejin Choi, Jenia Jitsev, Reinhard Heckel, Maheswaran Sathiamoorthy, Alexandros G. Dimakis, Ludwig Schmidt,
- Abstract要約: OpenThoughtsプロジェクトは、推論モデルをトレーニングするためのオープンソースのデータセットを作成することだ。
OpenThoughts2-1Mデータセットは、公開推論データに基づいてトレーニングされた最初のモデルであるOpenThinker2-32Bに導かれた。
OpenThinker3-7Bモデル。
- 参考スコア(独自算出の注目度): 215.16652796083164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning models have made rapid progress on many benchmarks involving math, code, and science. Yet, there are still many open questions about the best training recipes for reasoning since state-of-the-art models often rely on proprietary datasets with little to no public information available. To address this, the goal of the OpenThoughts project is to create open-source datasets for training reasoning models. After initial explorations, our OpenThoughts2-1M dataset led to OpenThinker2-32B, the first model trained on public reasoning data to match DeepSeek-R1-Distill-32B on standard reasoning benchmarks such as AIME and LiveCodeBench. We then improve our dataset further by systematically investigating each step of our data generation pipeline with 1,000+ controlled experiments, which led to OpenThoughts3. Scaling the pipeline to 1.2M examples and using QwQ-32B as teacher yields our OpenThinker3-7B model, which achieves state-of-the-art results: 53% on AIME 2025, 51% on LiveCodeBench 06/24-01/25, and 54% on GPQA Diamond. All of our datasets and models are available on https://openthoughts.ai.
- Abstract(参考訳): 推論モデルは、数学、コード、科学を含む多くのベンチマークで急速に進歩している。
しかし、最先端のモデルは、公開情報はほとんど、あるいは全く公開されていないプロプライエタリなデータセットに依存していることが多いため、推論のための最良のトレーニングレシピについて、まだ多くのオープンな質問がある。
この問題に対処するため、OpenThoughtsプロジェクトの目標は、推論モデルをトレーニングするためのオープンソースのデータセットを作成することだ。
最初の調査の後、OpenThoughts2-1MデータセットがOpenThinker2-32Bに導かれた。OpenThinker2-32Bは、AIMEやLiveCodeBenchといった標準的な推論ベンチマークでDeepSeek-R1-Distill-32Bにマッチするように、公開推論データをトレーニングした最初のモデルだ。
そして、1000以上の制御された実験でデータ生成パイプラインの各ステップを体系的に調査することで、データセットをさらに改善しました。
AIME 2025では53%、LiveCodeBench 06/24-01/25では51%、GPQA Diamondでは54%である。
すべてのデータセットとモデルはhttps://open Thoughts.ai.comで公開されています。
関連論文リスト
- Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen! [77.5835471257498]
プロプライエタリなデータによるオープンソースのLarge Language Models(LLM)の微調整は、現在、ダウンストリーム開発者にとって標準のプラクティスとなっている。
オープンソースLLMの作成者は、後にプライベートな下流の微調整データを抽出することができる。
論文 参考訳(メタデータ) (2025-05-21T15:32:14Z) - Not All Correct Answers Are Equal: Why Your Distillation Source Matters [16.441081996257576]
蒸留は、オープンソースの言語モデルの推論能力を高めるための実用的で効果的なアプローチとして登場した。
我々は,最先端の教師モデルであるAM-Thinking-v1,Qwen3-235B-A22B,DeepSeek-R1の3つの出力を1億9900万クエリの共有コーパスで収集した。
各データセットでトレーニングされた学生モデルは、AIME2024、AIME2025、MATH500、LiveCodeBenchなどの推論ベンチマークに基づいて評価される。
論文 参考訳(メタデータ) (2025-05-20T15:00:51Z) - 1.4 Million Open-Source Distilled Reasoning Dataset to Empower Large Language Model Training [16.441081996257576]
AM-DeepSeek-R1-Distilledは、一般的な推論タスクのための思考トレースを備えた大規模データセットである。
AM-Distill-Qwen-32Bモデルは、単純なSupervised Fine-Tuning (SFT) のみで訓練され、4つのベンチマークでDeepSeek-R1-Distill-Qwen-32Bモデルを上回った。
論文 参考訳(メタデータ) (2025-03-25T13:19:46Z) - Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond [14.372747932761754]
本稿では、長い推論モデルをトレーニングするためのオープンソースのスイートであるLight-R1を紹介する。
カリキュラムの学習は、多段階のポストトレーニングと組み合わせて、データの難易度を徐々に高めていく。
最終的なLight-R1-14B-DSは,AIME24と25のスコアが74.0,60.2の14Bモデル間でSOTA性能を実現している。
論文 参考訳(メタデータ) (2025-03-13T15:29:22Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [70.78205685001168]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
UGBenchは、スコープ内暗黙の知識の未学習を評価するために特別に設計された最初のベンチマークである。
確率に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。
テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文 参考訳(メタデータ) (2025-01-31T18:48:08Z) - InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。
ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。
テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。
私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文 参考訳(メタデータ) (2024-09-19T08:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。