論文の概要: 1.4 Million Open-Source Distilled Reasoning Dataset to Empower Large Language Model Training
- arxiv url: http://arxiv.org/abs/2503.19633v1
- Date: Tue, 25 Mar 2025 13:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:50:11.463007
- Title: 1.4 Million Open-Source Distilled Reasoning Dataset to Empower Large Language Model Training
- Title(参考訳): 大規模言語モデルトレーニングを支援するオープンソース蒸留推論データセット140万
- Authors: Han Zhao, Haotian Wang, Yiping Peng, Sitong Zhao, Xiaoyu Tian, Shuaiting Chen, Yunjie Ji, Xiangang Li,
- Abstract要約: AM-DeepSeek-R1-Distilledは、一般的な推論タスクのための思考トレースを備えた大規模データセットである。
AM-Distill-Qwen-32Bモデルは、単純なSupervised Fine-Tuning (SFT) のみで訓練され、4つのベンチマークでDeepSeek-R1-Distill-Qwen-32Bモデルを上回った。
- 参考スコア(独自算出の注目度): 16.441081996257576
- License:
- Abstract: The AM-DeepSeek-R1-Distilled is a large-scale dataset with thinking traces for general reasoning tasks, composed of high-quality and challenging reasoning problems. These problems are collected from a multitude of open-source datasets, subjected to semantic deduplication and meticulous cleaning to eliminate test set contamination. All responses within the dataset are distilled from reasoning models (predominantly DeepSeek-R1) and have undergone rigorous verification procedures. Mathematical problems are validated by checking against reference answers, code problems are verified using test cases, and other tasks are evaluated with the aid of a reward model. The AM-Distill-Qwen-32B model, which was trained through only simple Supervised Fine-Tuning (SFT) using this batch of data, outperformed the DeepSeek-R1-Distill-Qwen-32B model on four benchmarks: AIME2024, MATH-500, GPQA-Diamond, and LiveCodeBench. Additionally, the AM-Distill-Qwen-72B model surpassed the DeepSeek-R1-Distill-Llama-70B model on all benchmarks as well. We are releasing these 1.4 million problems and their corresponding responses to the research community with the objective of fostering the development of powerful reasoning-oriented Large Language Models (LLMs). The dataset was published in \href{https://huggingface.co/datasets/a-m-team/AM-DeepSeek-R1-Distilled-1.4M}{https://huggingface.co/datasets/a-m-team/AM-DeepSeek-R1-Distilled-1.4M}.
- Abstract(参考訳): AM-DeepSeek-R1-Distilledは、一般的な推論タスクのための思考トレースを備えた大規模データセットである。
これらの問題は、多数のオープンソースデータセットから収集され、セマンティックな重複と精巧なクリーニングによってテストセットの汚染を除去する。
データセット内の全ての応答は推論モデル(DeepSeek-R1)から抽出され、厳密な検証手順が実施されている。
数学的な問題は、基準回答の検証によって検証され、コード問題はテストケースを用いて検証され、その他のタスクは報酬モデルの助けを借りて評価される。
AIME2024、MATH-500、GPQA-ダイアモンド、LiveCodeBenchの4つのベンチマークでDeepSeek-R1-Distill-Qwen-32Bモデルを上回った。
さらにAM-Distill-Qwen-72BモデルはすべてのベンチマークでDeepSeek-R1-Distill-Llama-70Bモデルを上回った。
我々は、強力な推論指向の大規模言語モデル(LLM)の開発を促進することを目的として、これらの14万の課題とその対応する回答を研究コミュニティに公開しています。
データセットは \href{https://huggingface.co/datasets/a-m-team/AM-DeepSeek-R1-Distilled-1.4M}{https://huggingface.co/a-m-team/AM-DeepSeek-R1-Distilled-1.4M} で公開された。
関連論文リスト
- Token-Hungry, Yet Precise: DeepSeek R1 Highlights the Need for Multi-Step Reasoning Over Speed in MATH [0.0]
本研究では,30の難解な数学的問題に対して,DeepSeek R1言語モデルの性能について検討する。
DeepSeek R1はこれらの複雑な問題に対して優れた精度を達成するが、他のモデルよりもはるかに多くのトークンを生成する。
この結果は,大規模言語モデルを用いた数学的問題解決における精度と効率のトレードオフを浮き彫りにした。
論文 参考訳(メタデータ) (2025-01-30T18:45:51Z) - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.16121855209246]
第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。
DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。
DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
論文 参考訳(メタデータ) (2025-01-22T15:19:35Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - R-CoT: Reverse Chain-of-Thought Problem Generation for Geometric Reasoning in Large Multimodal Models [86.06825304372613]
本稿では,R-CoT(Reverse Chain-of-Thought)幾何問題生成パイプラインを提案する。
まず、GeoChainを導入し、高忠実度幾何画像とそれに対応する記述を生成する。
次に、記述に基づいてステップバイステップの推論を行うReverse A&Q手法を設計し、推論結果から逆の質問を生成する。
論文 参考訳(メタデータ) (2024-10-23T13:58:39Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [64.55339431760727]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Leak, Cheat, Repeat: Data Contamination and Evaluation Malpractices in
Closed-Source LLMs [5.310555620116225]
我々は OpenAI の GPT-3.5 と GPT-4 を用いた最初の系統解析を行った。
モデルのリリース後最初の1年間に、これらのモデルにリークされたデータ量について文書化します。
我々はこれらのモデルが263ベンチマークから$sim$4.7Mのサンプルに世界中で公開されていることを報告した。
論文 参考訳(メタデータ) (2024-02-06T11:54:23Z) - Annotating and Detecting Fine-grained Factual Errors for Dialogue
Summarization [34.85353544844499]
本稿では,DIASUMFACTというファクトエラーアノテーションを用いた最初のデータセットを提案する。
文レベルのマルチラベル分類問題として,ファクト・ファクト・エラー検出を定義する。
事前学習したエンコーダ-デコーダモデルを用いた候補ランキングによる教師なしモデルENDERANKERを提案する。
論文 参考訳(メタデータ) (2023-05-26T00:18:33Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。