論文の概要: Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading
- arxiv url: http://arxiv.org/abs/2504.11919v1
- Date: Wed, 16 Apr 2025 09:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:52.416497
- Title: Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading
- Title(参考訳): LLM-Adaptive Questiondiffulty Grading の視点からの高品質CoTデータ生成の再考
- Authors: Qianjin Yu, Keyu Wu, Zihan Chen, Chushu Zhang, Manlin Mei, Lingjun Huang, Fang Tan, Yongsheng Du, Kunlin Liu, Yurui Zhu,
- Abstract要約: 近年、DeepSeek-R1 (671B) (DeepSeek-AIet al., 2025) は複雑なタスクにおいて優れた推論能力を示している。
我々は,LLM-Adaptive Questiondifficultyレベルを用いた高品質なチェーン・オブ・シークレット(CoT)データを生成するための効率的な方法を模索する。
我々は、データ生成のコストを大幅に削減し、教師付き微調整モデルの効率を向上した。
- 参考スコア(独自算出の注目度): 10.464772521284987
- License:
- Abstract: Recently, DeepSeek-R1 (671B) (DeepSeek-AIet al., 2025) has demonstrated its excellent reasoning ability in complex tasks and has publiclyshared its methodology. This provides potentially high-quality chain-of-thought (CoT) data for stimulating the reasoning abilities of small-sized large language models (LLMs). To generate high-quality CoT data for different LLMs, we seek an efficient method for generating high-quality CoT data with LLM-Adaptive questiondifficulty levels. First, we grade the difficulty of the questions according to the reasoning ability of the LLMs themselves and construct a LLM-Adaptive question database. Second, we sample the problem database based on a distribution of difficulty levels of the questions and then use DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) to generate the corresponding high-quality CoT data with correct answers. Thanks to the construction of CoT data with LLM-Adaptive difficulty levels, we have significantly reduced the cost of data generation and enhanced the efficiency of model supervised fine-tuning (SFT). Finally, we have validated the effectiveness and generalizability of the proposed method in the fields of complex mathematical competitions and code generation tasks. Notably, with only 2k high-quality mathematical CoT data, our ZMath-32B surpasses DeepSeek-Distill-32B in math reasoning task. Similarly, with only 2k high-quality code CoT data, our ZCode-32B surpasses DeepSeek-Distill-32B in code reasoning tasks.
- Abstract(参考訳): 近年、DeepSeek-R1 (671B) (DeepSeek-AIet al , 2025) は複雑なタスクにおいて優れた推論能力を示し、その方法論を公表している。
これは、小型の大規模言語モデル(LLM)の推論能力を刺激するために、潜在的に高品質なチェーン・オブ・シント(CoT)データを提供する。
異なるLLMに対して高品質なCoTデータを生成するために,LLM適応質問分散レベルを用いた高品質なCoTデータを生成する効率的な方法を模索する。
まず,LLM自体の推論能力に応じて質問の難易度を評価し,LLM適応質問データベースを構築する。
第2に,質問の難易度分布に基づいて問題データベースをサンプリングし,DeepSeek-AI et al , 2025)を用いて,対応する高品質なCoTデータを正しい回答で生成する。
LLM適応難易度を用いたCoTデータの構築により、データ生成コストを大幅に削減し、モデル教師あり微調整(SFT)の効率化を実現した。
最後に,複雑な数式競合やコード生成タスクの分野において,提案手法の有効性と一般化性を検証する。
特に、ZMath-32Bは数学の推論タスクでDeepSeek-Distill-32Bを上回っています。
同様に、2kの高品質なCoTデータしか持たないZCode-32Bは、コード推論タスクでDeepSeek-Distill-32Bを上回っています。
関連論文リスト
- UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - OptMATH: A Scalable Bidirectional Data Synthesis Framework for Optimization Modeling [9.617742955894247]
高品質な最適化モデリングデータセットの欠如は、大きな言語モデルを悩ませます。
本稿では,OptMATHという高品質なデータセットを合成するためのスケーラブルなフレームワークを提案する。
我々は,OptMATHでトレーニングした様々なサイズのモデルが,複数のモデリングベンチマークにおいて優れた結果が得られることを実証した。
論文 参考訳(メタデータ) (2025-02-16T12:38:37Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - NaturalCodeBench: Examining Coding Performance Mismatch on HumanEval and Natural User Prompts [31.783388267874738]
NaturalCodeBench (NCB) は、実際のコーディングタスクにおける複雑さと様々なシナリオを反映した、挑戦的なコードベンチマークである。
NCBは、PythonとJavaの402の高品質な問題で構成されており、オンラインコーディングサービスからの自然なユーザクエリから慎重に選択されている。
39 LLMの系統的実験により,NCBにおけるHumanEvalスコアが近いモデル間の性能ギャップが依然として大きいことが判明した。
論文 参考訳(メタデータ) (2024-05-07T17:52:51Z) - Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文 参考訳(メタデータ) (2024-03-04T18:58:30Z) - DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language
Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。
長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。
本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:35:40Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - High Dimensional Level Set Estimation with Bayesian Neural Network [58.684954492439424]
本稿では,ベイズニューラルネットワークを用いた高次元レベル集合推定問題を解く新しい手法を提案する。
各問題に対して対応する理論情報に基づく取得関数を導出してデータポイントをサンプリングする。
合成データセットと実世界データセットの数値実験により,提案手法は既存手法よりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2020-12-17T23:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。