Fugu-MT 論文翻訳(概要): Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch

論文の概要: Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch

arxiv url: http://arxiv.org/abs/2410.18693v1
Date: Thu, 24 Oct 2024 12:42:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.903389
Title: Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch
Title（参考訳）: スクラッチからのスケーラブルな質問合成によるLCMの解離推論能力
Authors: Yuyang Ding, Xinyu Shi, Xiaobo Liang, Juntao Li, Qiaoming Zhu, Min Zhang,
Abstract要約: ScaleQuestはスケーラブルで斬新なデータ合成手法である。複雑な拡張制約を持つシードデータを必要とせずに、スクラッチから質問を生成する。主要なオープンソースモデルの性能を普遍的に向上させることができる。
参考スコア（独自算出の注目度）: 28.519536719973317
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The availability of high-quality data is one of the most important factors in improving the reasoning capability of LLMs. Existing works have demonstrated the effectiveness of creating more instruction data from seed questions or knowledge bases. Recent research indicates that continually scaling up data synthesis from strong models (e.g., GPT-4) can further elicit reasoning performance. Though promising, the open-sourced community still lacks high-quality data at scale and scalable data synthesis methods with affordable costs. To address this, we introduce ScaleQuest, a scalable and novel data synthesis method that utilizes "small-size" (e.g., 7B) open-source models to generate questions from scratch without the need for seed data with complex augmentation constraints. With the efficient ScaleQuest, we automatically constructed a mathematical reasoning dataset consisting of 1 million problem-solution pairs, which are more effective than existing open-sourced datasets. It can universally increase the performance of mainstream open-source models (i.e., Mistral, Llama3, DeepSeekMath, and Qwen2-Math) by achieving 29.2% to 46.4% gains on MATH. Notably, simply fine-tuning the Qwen2-Math-7B-Base model with our dataset can even surpass Qwen2-Math-7B-Instruct, a strong and well-aligned model on closed-source data, and proprietary models such as GPT-4-Turbo and Claude-3.5 Sonnet.
Abstract（参考訳）: 高品質データの可用性は,LLMの推論能力を向上させる上で最も重要な要因の1つである。既存の研究は、シード質問や知識ベースからより多くのインストラクションデータを作成する効果を実証している。近年の研究では、強いモデル(例えば、GPT-4)からのデータ合成を継続的にスケールアップすることで、推論性能をさらに向上させることが示されている。有望ではあるが、オープンソースコミュニティには、大規模で高品質なデータと、安価なコストでスケーラブルなデータ合成方法がまだ欠けている。これを解決するために,スケールクエスト(ScaleQuest)という,"小ささ"(例:7B)のオープンソースモデルを用いて,複雑な拡張制約を伴うシードデータを必要としない,スクラッチから質問を生成する,スケーラブルで斬新なデータ合成手法を紹介した。効率的なスケールクエストを用いて,100万の問題解決ペアからなる数学的推論データセットを自動構築した。主要なオープンソースモデル(Mistral、Llama3、DeepSeekMath、Qwen2-Math)の性能は、MATHで29.2%から46.4%向上する。特に、データセットでQwen2-Math-7B-Baseモデルを微調整するだけで、クローズドソースデータに対する強力で整合性の高いモデルであるQwen2-Math-7B-Instructや、GPT-4-TurboやClaude-3.5 Sonnetといったプロプライエタリなモデルを上回ることができる。

関連論文リスト

Large-Scale Diverse Synthesis for Mid-Training [15.81154701009597]
BoostQAは100Bの大規模質問回答データセットである。本稿では,BoostQAを合成するための新しい多様化パイプラインを提案する。提案手法は,Llama-3 8Bを40Bトーケンデータセットで中級訓練し,MMLUとCMMLUで平均$mathbf12.74%の改善を実現する。
論文参考訳（メタデータ） (2025-08-02T11:37:16Z)
Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study [55.09905978813599]
大規模言語モデル(LLM)は、データ分析タスクの自動化を約束する。しかし、オープンソースモデルは、このような推論集約的なシナリオにおいて、重大な制限に直面している。本研究では,オープンソースLLMのデータ解析機能を強化するための戦略について検討する。
論文参考訳（メタデータ） (2025-06-24T17:04:23Z)
Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文参考訳（メタデータ） (2025-01-16T16:19:53Z)
A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions [80.55890939658416]
グラフベースのSynthetic Data Pipeline(GSDP)は、高品質な推論データ合成のための経済的かつスケーラブルなフレームワークである。最も困難な数学的推論課題に取り組むために,161万組以上の数学問題と解からなるGSDP-MATHデータセットを提案する。
論文参考訳（メタデータ） (2024-12-12T01:52:25Z)
Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。 6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文参考訳（メタデータ） (2024-12-04T19:20:32Z)
Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。 SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文参考訳（メタデータ） (2024-10-24T10:47:30Z)
OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data [8.36384597713879]
OpenMathInstruct-2データセットは、14万の質問解決ペアで構成されている($600Kのユニークな質問) texttLlama-3.1-8B-Base を OpenMath Instruct-2 で微調整すると、texttLlama3.1-8B-Instruct on MATH は 15.9% 向上する。オープンソースへの取り組みを加速するため、我々は商用ライセンス下でコード、微調整されたモデル、OpenMath Instruct-2データセットをリリースしました。
論文参考訳（メタデータ） (2024-10-02T14:00:09Z)
Rephrase and Contrast: Fine-Tuning Language Models for Enhanced Understanding of Communication and Computer Networks [13.829525575305206]
本稿では,効率的な微調整フレームワークであるRephrase and Contrast(RaC)フレームワークについて紹介する。 RaCは質問の修正と対照的な分析を取り入れることでLLMの理解と批判的思考能力を高める。本稿では,RaC微調整のためのデータセットを効率的に構築するために,高品質な質問応答対を生成するためのGPT支援データマイニング法を開発した。
論文参考訳（メタデータ） (2024-09-21T16:04:43Z)
Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources [38.30192495271699]
我々は、コストのかかる人的アノテーションに頼ることなく、LLMに新しいスキルを教えるために使用できる新しい方法、Source2 Synthを提案する。 Source2 Synthはカスタムデータソースを入力として、実世界のソースをベースとした中間的推論ステップを備えた合成データポイントを生成する。マルチホップ質問応答(MHQA)とツール質問応答(TQA)の推論能力をテストする。
論文参考訳（メタデータ） (2024-09-12T17:39:08Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。 Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文参考訳（メタデータ） (2024-07-11T09:56:51Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.45794710162241]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文参考訳（メタデータ） (2024-05-23T09:43:19Z)
Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文参考訳（メタデータ） (2024-05-07T07:39:15Z)
Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQA [9.659820850719413]
我々は,推論能力の強い大規模言語モデル(LLM)を自動データアノテータとして活用する。私たちの方法における重要な革新は、Synthesize Step-by-Step戦略にあります。我々は、チャートVQAモデルを大幅に強化し、ChartQAおよびPlotQAデータセットの最先端の精度を達成する。
論文参考訳（メタデータ） (2024-03-25T03:02:27Z)
Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。 KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。 KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文参考訳（メタデータ） (2024-03-04T18:58:30Z)
ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文参考訳（メタデータ） (2024-02-09T11:23:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。