論文の概要: Not All Correct Answers Are Equal: Why Your Distillation Source Matters
- arxiv url: http://arxiv.org/abs/2505.14464v2
- Date: Thu, 22 May 2025 03:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 12:25:15.018742
- Title: Not All Correct Answers Are Equal: Why Your Distillation Source Matters
- Title(参考訳): 正しい答えがすべて同じではない: 蒸留源が重要な理由
- Authors: Xiaoyu Tian, Yunjie Ji, Haotian Wang, Shuaiting Chen, Sitong Zhao, Yiping Peng, Han Zhao, Xiangang Li,
- Abstract要約: 蒸留は、オープンソースの言語モデルの推論能力を高めるための実用的で効果的なアプローチとして登場した。
我々は,最先端の教師モデルであるAM-Thinking-v1,Qwen3-235B-A22B,DeepSeek-R1の3つの出力を1億9900万クエリの共有コーパスで収集した。
各データセットでトレーニングされた学生モデルは、AIME2024、AIME2025、MATH500、LiveCodeBenchなどの推論ベンチマークに基づいて評価される。
- 参考スコア(独自算出の注目度): 16.441081996257576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distillation has emerged as a practical and effective approach to enhance the reasoning capabilities of open-source language models. In this work, we conduct a large-scale empirical study on reasoning data distillation by collecting verified outputs from three state-of-the-art teacher models-AM-Thinking-v1, Qwen3-235B-A22B, and DeepSeek-R1-on a shared corpus of 1.89 million queries. We construct three parallel datasets and analyze their distributions, revealing that AM-Thinking-v1-distilled data exhibits greater token length diversity and lower perplexity. Student models trained on each dataset are evaluated on reasoning benchmarks including AIME2024, AIME2025, MATH500, and LiveCodeBench. The model distilled from AM-Thinking-v1 consistently achieves the best performance (e.g., 84.3 on AIME2024, 72.2 on AIME2025, 98.4 on MATH500, and 65.9 on LiveCodeBench) and demonstrates adaptive output behavior-producing longer responses for harder tasks and shorter ones for simpler tasks. These findings highlight the value of high-quality, verified reasoning traces. We release the AM-Thinking-v1 and Qwen3-235B-A22B distilled datasets to support future research on open and high-performing reasoning-oriented language models. The datasets are publicly available on Hugging Face\footnote{Datasets are available on Hugging Face: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled}{AM-Thinking-v1-Distilled}, \href{https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled}{AM-Qwen3-Distilled}.}.
- Abstract(参考訳): 蒸留は、オープンソースの言語モデルの推論能力を高めるための実用的で効果的なアプローチとして登場した。
本研究では,3種類の最先端教師モデル-AM-Thinking-v1,Qwen3-235B-A22B,DeepSeek-R1-を1,9900万クエリの共有コーパスで収集し,推論データ蒸留に関する大規模実験を行った。
3つの並列データセットを構築し,それらの分布を解析した結果,AM-Thinking-v1蒸留データの方がトークン長の多様性とパープレキシティの低下を示すことがわかった。
各データセットでトレーニングされた学生モデルは、AIME2024、AIME2025、MATH500、LiveCodeBenchなどの推論ベンチマークに基づいて評価される。
AIME2024では84.3、AIME2025では72.2、MATH500では98.4、LiveCodeBenchでは65.9、AM-Thinking-v1では65.9)、より難しいタスクではより短いタスクでは適応的な出力の振る舞いを再現する。
これらの知見は、高品質で検証された推論トレースの価値を浮き彫りにした。
我々はAM-Thinking-v1およびQwen3-235B-A22B蒸留データセットをリリースし、オープンかつ高性能な推論指向言語モデルの研究を支援する。
データセットはHugging Faceで公開されている。 \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled}{AM-Thinking-v1-Distilled}, \href{https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled}{AM-Qwen3-Distilled}。
と。
関連論文リスト
- Enhancing Scientific Visual Question Answering through Multimodal Reasoning and Ensemble Modeling [0.0]
視覚的質問応答への現在のアプローチは、科学データ解釈に必要な正確さに苦慮することが多い。
我々はSciVQA 2025の共有課題に対して,学術論文からの科学的数字に基づく視覚的・非視覚的質問への回答に焦点をあてる。
本研究は,視覚的質問応答におけるモデルの性能向上における,迅速な最適化,連鎖推論,アンサンブルモデリングの有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-07-08T17:05:42Z) - OpenThoughts: Data Recipes for Reasoning Models [215.16652796083164]
OpenThoughtsプロジェクトは、推論モデルをトレーニングするためのオープンソースのデータセットを作成することだ。
OpenThoughts2-1Mデータセットは、公開推論データに基づいてトレーニングされた最初のモデルであるOpenThinker2-32Bに導かれた。
OpenThoughts3-7Bモデル。
論文 参考訳(メタデータ) (2025-06-04T17:25:39Z) - Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning [21.70706473875226]
本稿では,2段階のフレームワークであるReinforcement Distillation (REDI)を提案する。
Supervised Fine-Tuning (SFT) による正のトレースから学ぶステージ1
ステージ2は、提案したREDI目標を通じて、正と負の両方のトレースを用いてモデルをさらに洗練する。
DPO/SimPOを併用したベースラインリジェクションサンプリングSFTやSFTよりもREDIが優れていることを示す実験的検討を行った。
論文 参考訳(メタデータ) (2025-05-30T17:47:17Z) - Reinforcement Learning for Reasoning in Large Language Models with One Training Example [133.018487956408]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の数学的推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training [16.441081996257576]
大規模言語モデル(LLM)は、最近、様々な複雑な推論ベンチマークで顕著なパフォーマンスを達成した。
難易度が変化する約334万のユニークなクエリを含む大規模で難易度の高い推論データセットを構築した。
AIME2024の数学的推論ベンチマークで79.2%のパス率を達成することで、ベースモデルの推論能力を大幅に改善する。
論文 参考訳(メタデータ) (2025-04-24T13:57:53Z) - 1.4 Million Open-Source Distilled Reasoning Dataset to Empower Large Language Model Training [16.441081996257576]
AM-DeepSeek-R1-Distilledは、一般的な推論タスクのための思考トレースを備えた大規模データセットである。
AM-Distill-Qwen-32Bモデルは、単純なSupervised Fine-Tuning (SFT) のみで訓練され、4つのベンチマークでDeepSeek-R1-Distill-Qwen-32Bモデルを上回った。
論文 参考訳(メタデータ) (2025-03-25T13:19:46Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing [59.58984194238254]
本稿では,パラフレーズと文要約のための新しい枠組みであるImpossible Distillationを提案する。
極端に大規模な教師モデルに依存した先行研究とは異なり、パラフラスティックな近在性と事前学習されたLMを仮説化し、検証する。
これらの部分空間から世代を同定して蒸留することにより、インポッシブル蒸留は、GPT2スケールのLMでも高品質なデータセットとモデルを生成する。
論文 参考訳(メタデータ) (2023-05-26T05:19:24Z) - AMR Parsing via Graph-Sequence Iterative Inference [62.85003739964878]
本稿では,AMR解析を入力シーケンスとインクリメンタルに構築されたグラフ上での2つの決定の連続として扱うエンド・ツー・エンドのモデルを提案する。
これら2つの質問に対する回答は相互因果関係であることを示す。
我々は、両方の視点でより良い回答を得るのに役立つ反復推論に基づくモデルを設計し、解析精度を大幅に改善する。
論文 参考訳(メタデータ) (2020-04-12T09:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。