Fugu-MT 論文翻訳(概要): Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading

論文の概要: Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading

arxiv url: http://arxiv.org/abs/2504.11919v1
Date: Wed, 16 Apr 2025 09:55:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 20:46:32.486305
Title: Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading
Title（参考訳）: LLM-Adaptive Questiondiffulty Grading の視点からの高品質CoTデータ生成の再考
Authors: Qianjin Yu, Keyu Wu, Zihan Chen, Chushu Zhang, Manlin Mei, Lingjun Huang, Fang Tan, Yongsheng Du, Kunlin Liu, Yurui Zhu,
Abstract要約: 近年、DeepSeek-R1 (671B) (DeepSeek-AIet al., 2025) は複雑なタスクにおいて優れた推論能力を示している。我々は,LLM-Adaptive Questiondifficultyレベルを用いた高品質なチェーン・オブ・シークレット(CoT)データを生成するための効率的な方法を模索する。我々は、データ生成のコストを大幅に削減し、教師付き微調整モデルの効率を向上した。
参考スコア（独自算出の注目度）: 10.464772521284987
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, DeepSeek-R1 (671B) (DeepSeek-AIet al., 2025) has demonstrated its excellent reasoning ability in complex tasks and has publiclyshared its methodology. This provides potentially high-quality chain-of-thought (CoT) data for stimulating the reasoning abilities of small-sized large language models (LLMs). To generate high-quality CoT data for different LLMs, we seek an efficient method for generating high-quality CoT data with LLM-Adaptive questiondifficulty levels. First, we grade the difficulty of the questions according to the reasoning ability of the LLMs themselves and construct a LLM-Adaptive question database. Second, we sample the problem database based on a distribution of difficulty levels of the questions and then use DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) to generate the corresponding high-quality CoT data with correct answers. Thanks to the construction of CoT data with LLM-Adaptive difficulty levels, we have significantly reduced the cost of data generation and enhanced the efficiency of model supervised fine-tuning (SFT). Finally, we have validated the effectiveness and generalizability of the proposed method in the fields of complex mathematical competitions and code generation tasks. Notably, with only 2k high-quality mathematical CoT data, our ZMath-32B surpasses DeepSeek-Distill-32B in math reasoning task. Similarly, with only 2k high-quality code CoT data, our ZCode-32B surpasses DeepSeek-Distill-32B in code reasoning tasks.
Abstract（参考訳）: 近年、DeepSeek-R1 (671B) (DeepSeek-AIet al , 2025) は複雑なタスクにおいて優れた推論能力を示し、その方法論を公表している。これは、小型の大規模言語モデル(LLM)の推論能力を刺激するために、潜在的に高品質なチェーン・オブ・シント(CoT)データを提供する。異なるLLMに対して高品質なCoTデータを生成するために,LLM適応質問分散レベルを用いた高品質なCoTデータを生成する効率的な方法を模索する。まず,LLM自体の推論能力に応じて質問の難易度を評価し,LLM適応質問データベースを構築する。第2に,質問の難易度分布に基づいて問題データベースをサンプリングし,DeepSeek-AI et al , 2025)を用いて,対応する高品質なCoTデータを正しい回答で生成する。 LLM適応難易度を用いたCoTデータの構築により、データ生成コストを大幅に削減し、モデル教師あり微調整(SFT)の効率化を実現した。最後に,複雑な数式競合やコード生成タスクの分野において,提案手法の有効性と一般化性を検証する。特に、ZMath-32Bは数学の推論タスクでDeepSeek-Distill-32Bを上回っています。同様に、2kの高品質なCoTデータしか持たないZCode-32Bは、コード推論タスクでDeepSeek-Distill-32Bを上回っています。

関連論文リスト

CoT-Self-Instruct: Building high-quality synthetic prompts for reasoning and non-reasoning tasks [57.482238100217195]
合成データ生成手法CoT-Self-Instructを提案する。検証可能な推論において、我々の合成データはs1kやOpenMathReasoningといった既存のトレーニングデータセットよりも大幅に優れています。検証不能な命令追従タスクに対しては、AlpacaEval 2.0とArena-Hardの両方で、人間または標準の自己指示プロンプトの性能を上回ります。
論文参考訳（メタデータ） (2025-07-31T17:38:50Z)
Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
Synthesis by Design: Controlled Data Generation via Structural Guidance [7.938713951512933]
数学的推論から生成した問題解決コードを用いて構造情報を抽出する。提案手法は,ラベル付き中間ステップと6.1K-problemベンチマークで39Kの問題を発生させる。ベンチマークの結果,推論長の増加に伴いモデル性能が低下することが示された。
論文参考訳（メタデータ） (2025-06-09T11:38:23Z)
Reasoning with OmniThought: A Large CoT Dataset with Verbosity and Cognitive Difficulty Annotations [11.367717208838101]
OmniThoughtは、教師モデルとして2つの強力なLEMによって生成される200万のチェーン・オブ・シント(CoT)プロセスを備えた大規模なデータセットである。 OmniThoughtの各CoTプロセスには、新しいReasoning Verbosity(RV)とCognitive Difficulty(CD)スコアがアノテートされている。我々はさらに、より強力な推論能力と最適なCoT出力長と難易度を備えた高性能LEMのシリーズを訓練・リリースする。
論文参考訳（メタデータ） (2025-05-16T07:15:30Z)
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文参考訳（メタデータ） (2025-03-04T19:17:36Z)
PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文参考訳（メタデータ） (2025-03-04T06:32:30Z)
OptMATH: A Scalable Bidirectional Data Synthesis Framework for Optimization Modeling [9.617742955894247]
高品質な最適化モデリングデータセットの欠如は、大きな言語モデルを悩ませます。本稿では,OptMATHという高品質なデータセットを合成するためのスケーラブルなフレームワークを提案する。我々は,OptMATHでトレーニングした様々なサイズのモデルが,複数のモデリングベンチマークにおいて優れた結果が得られることを実証した。
論文参考訳（メタデータ） (2025-02-16T12:38:37Z)
Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。 LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文参考訳（メタデータ） (2025-01-24T06:39:38Z)
OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文参考訳（メタデータ） (2024-07-13T13:27:57Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。 KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。 KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文参考訳（メタデータ） (2024-03-04T18:58:30Z)
DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文参考訳（メタデータ） (2024-02-19T18:35:40Z)
MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文参考訳（メタデータ） (2024-01-16T08:08:01Z)
High Dimensional Level Set Estimation with Bayesian Neural Network [58.684954492439424]
本稿では,ベイズニューラルネットワークを用いた高次元レベル集合推定問題を解く新しい手法を提案する。各問題に対して対応する理論情報に基づく取得関数を導出してデータポイントをサンプリングする。合成データセットと実世界データセットの数値実験により,提案手法は既存手法よりも優れた結果が得られることが示された。
論文参考訳（メタデータ） (2020-12-17T23:21:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。