論文の概要: 1.4 Million Open-Source Distilled Reasoning Dataset to Empower Large Language Model Training
- arxiv url: http://arxiv.org/abs/2503.19633v1
- Date: Tue, 25 Mar 2025 13:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 02:13:56.483555
- Title: 1.4 Million Open-Source Distilled Reasoning Dataset to Empower Large Language Model Training
- Title(参考訳): 大規模言語モデルトレーニングを支援するオープンソース蒸留推論データセット140万
- Authors: Han Zhao, Haotian Wang, Yiping Peng, Sitong Zhao, Xiaoyu Tian, Shuaiting Chen, Yunjie Ji, Xiangang Li,
- Abstract要約: AM-DeepSeek-R1-Distilledは、一般的な推論タスクのための思考トレースを備えた大規模データセットである。
AM-Distill-Qwen-32Bモデルは、単純なSupervised Fine-Tuning (SFT) のみで訓練され、4つのベンチマークでDeepSeek-R1-Distill-Qwen-32Bモデルを上回った。
- 参考スコア(独自算出の注目度): 16.441081996257576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The AM-DeepSeek-R1-Distilled is a large-scale dataset with thinking traces for general reasoning tasks, composed of high-quality and challenging reasoning problems. These problems are collected from a multitude of open-source datasets, subjected to semantic deduplication and meticulous cleaning to eliminate test set contamination. All responses within the dataset are distilled from reasoning models (predominantly DeepSeek-R1) and have undergone rigorous verification procedures. Mathematical problems are validated by checking against reference answers, code problems are verified using test cases, and other tasks are evaluated with the aid of a reward model. The AM-Distill-Qwen-32B model, which was trained through only simple Supervised Fine-Tuning (SFT) using this batch of data, outperformed the DeepSeek-R1-Distill-Qwen-32B model on four benchmarks: AIME2024, MATH-500, GPQA-Diamond, and LiveCodeBench. Additionally, the AM-Distill-Qwen-72B model surpassed the DeepSeek-R1-Distill-Llama-70B model on all benchmarks as well. We are releasing these 1.4 million problems and their corresponding responses to the research community with the objective of fostering the development of powerful reasoning-oriented Large Language Models (LLMs). The dataset was published in \href{https://huggingface.co/datasets/a-m-team/AM-DeepSeek-R1-Distilled-1.4M}{https://huggingface.co/datasets/a-m-team/AM-DeepSeek-R1-Distilled-1.4M}.
- Abstract(参考訳): AM-DeepSeek-R1-Distilledは、一般的な推論タスクのための思考トレースを備えた大規模データセットである。
これらの問題は、多数のオープンソースデータセットから収集され、セマンティックな重複と精巧なクリーニングによってテストセットの汚染を除去する。
データセット内の全ての応答は推論モデル(DeepSeek-R1)から抽出され、厳密な検証手順が実施されている。
数学的な問題は、基準回答の検証によって検証され、コード問題はテストケースを用いて検証され、その他のタスクは報酬モデルの助けを借りて評価される。
AIME2024、MATH-500、GPQA-ダイアモンド、LiveCodeBenchの4つのベンチマークでDeepSeek-R1-Distill-Qwen-32Bモデルを上回った。
さらにAM-Distill-Qwen-72BモデルはすべてのベンチマークでDeepSeek-R1-Distill-Llama-70Bモデルを上回った。
我々は、強力な推論指向の大規模言語モデル(LLM)の開発を促進することを目的として、これらの14万の課題とその対応する回答を研究コミュニティに公開しています。
データセットは \href{https://huggingface.co/datasets/a-m-team/AM-DeepSeek-R1-Distilled-1.4M}{https://huggingface.co/a-m-team/AM-DeepSeek-R1-Distilled-1.4M} で公開された。
関連論文リスト
- Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math [135.1260782461186]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の形式推論能力を著しく向上させる
しかし、Small Language Models (SLM) における推論の改善は、モデル能力が限られているため、依然として困難である。
本研究では,(1)多種多様な蒸留長CoTデータによる大規模中等教育,(2)高品質長CoTデータによる微調整,(3)厳格な選好データセットを活用したロールアウトDPO,(4)検証リワードを用いた強化学習(RL)の4段階からなるSLMの体系的トレーニングレシピを提案する。
論文 参考訳(メタデータ) (2025-04-30T00:04:35Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models [24.45348222168512]
マルチモーダル推論能力向上のためのMLLMであるVision-R1を提案する。
我々のモデルは、様々なマルチモーダル数学推論ベンチマークにおいて、$sim$6%の平均的な改善を達成している。
Vision-R1-7Bは広く使われているMathVistaベンチマークで73.5%の精度を実現している。
論文 参考訳(メタデータ) (2025-03-09T20:06:45Z) - TinyR1-32B-Preview: Boosting Accuracy with Branch-Merge Distillation [19.938309176933902]
本稿では, モデル圧縮を2相で促進するブランチ・マージ蒸留法を提案する。
我々は,DeepSeek-R1を教師とし,DeepSeek-R1-Distill-Qwen-32Bを学生として蒸留アプローチを検証する。
合併したTinyR1-32B-Previewは、複数のベンチマークでDeepSeek-R1-Distill-Qwen-32Bを上回った。
論文 参考訳(メタデータ) (2025-03-06T16:25:53Z) - DocPuzzle: A Process-Aware Benchmark for Evaluating Realistic Long-Context Reasoning Capabilities [39.68147391225923]
大規模言語モデル(LLM)における長文推論能力を評価するための厳格に構築されたベンチマークであるDocPuzzleを提案する。
このベンチマークは、長い実世界の文書に対して多段階の推論を必要とする100のエキスパートレベルのQA問題からなる。
本稿では,チェックリスト誘導プロセス分析による予測バイアスを軽減する,革新的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-25T03:29:53Z) - Token-Hungry, Yet Precise: DeepSeek R1 Highlights the Need for Multi-Step Reasoning Over Speed in MATH [0.0]
本研究では,30の難解な数学的問題に対して,DeepSeek R1言語モデルの性能について検討する。
DeepSeek R1はこれらの複雑な問題に対して優れた精度を達成するが、他のモデルよりもはるかに多くのトークンを生成する。
この結果は,大規模言語モデルを用いた数学的問題解決における精度と効率のトレードオフを浮き彫りにした。
論文 参考訳(メタデータ) (2025-01-30T18:45:51Z) - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.16121855209246]
第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。
DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。
DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
論文 参考訳(メタデータ) (2025-01-22T15:19:35Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [64.55339431760727]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Exploring Multimodal Large Language Models for Radiology Report
Error-checking [1.7217842380976978]
本稿では, 放射線技師が報告の誤りを確認するための補助として, マルチモーダル大言語モデル (LLMs) を用いた最初の臨床応用の1つを提案する。
我々は、実世界の放射線学データセット(X線とCTスキャンを含む)から評価データセットを作成しました。
SIMPLEレベルでは,MIMIC-CXRとIU X線データでそれぞれ47.4%,25.4%向上した。
論文 参考訳(メタデータ) (2023-12-20T15:20:33Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。