論文の概要: MAmmoTH2: Scaling Instructions from the Web
- arxiv url: http://arxiv.org/abs/2405.03548v2
- Date: Tue, 14 May 2024 01:36:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 18:22:42.312611
- Title: MAmmoTH2: Scaling Instructions from the Web
- Title(参考訳): MAmmoTH2: Webからのインストラクションのスケーリング
- Authors: Xiang Yue, Tuney Zheng, Ge Zhang, Wenhu Chen,
- Abstract要約: そこで本研究では,学習前のWebコーパスから,1000万の自然界に存在するインストラクションデータを効率的に抽出するパラダイムを提案する。
我々はMAmmoTH2モデルを構築し、推論ベンチマークの性能を大幅に向上させた。
さらに、パブリックインストラクションチューニングデータセット上でMAmmoTH2をトレーニングすると、MAmmoTH2-Plusが得られ、最先端のパフォーマンスが達成される。
- 参考スコア(独自算出の注目度): 39.786198452175505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning improves the reasoning abilities of large language models (LLMs), with data quality and scalability being the crucial factors. Most instruction tuning data come from human crowd-sourcing or GPT-4 distillation. We propose a paradigm to efficiently harvest 10 million naturally existing instruction data from the pre-training web corpus to enhance LLM reasoning. Our approach involves (1) recalling relevant documents, (2) extracting instruction-response pairs, and (3) refining the extracted pairs using open-source LLMs. Fine-tuning base LLMs on this dataset, we build MAmmoTH2 models, which significantly boost performance on reasoning benchmarks. Notably, MAmmoTH2-7B's (Mistral) performance increases from 11% to 34% on MATH and from 36% to 67% on GSM8K without training on any in-domain data. Further training MAmmoTH2 on public instruction tuning datasets yields MAmmoTH2-Plus, achieving state-of-the-art performance on several reasoning and chatbot benchmarks. Our work demonstrates how to harvest large-scale, high-quality instruction data without costly human annotation or GPT-4 distillation, providing a new paradigm for building better instruction tuning data.
- Abstract(参考訳): インストラクションチューニングは、大規模言語モデル(LLM)の推論能力を改善し、データ品質とスケーラビリティが重要な要素である。
ほとんどのインストラクションチューニングデータは、人間のクラウドソーシングやGPT-4蒸留に由来する。
LLM推論を強化するために,学習前のWebコーパスから1000万の自然界に存在するインストラクションデータを効率的に抽出するパラダイムを提案する。
提案手法では,(1)関連文書のリコール,(2)命令応答対の抽出,(3)オープンソースのLCMを用いて抽出したペアの精製を行う。
このデータセットに基づいて微調整ベースLLMを構築し,MAmmoTH2モデルを構築し,推論ベンチマークの性能を著しく向上させる。
特に、MAmmoTH2-7Bのパフォーマンスは、MATHでは11%から34%、GSM8Kでは36%から67%に向上した。
さらに、パブリックインストラクションチューニングデータセットでMAmmoTH2をトレーニングすると、MAmmoTH2-Plusが得られ、いくつかの推論とチャットボットベンチマークで最先端のパフォーマンスを達成する。
本研究は,人為的アノテーションやGPT-4蒸留を使わずに大規模かつ高品質な指導データを収集する方法を実証し,より優れた指導調律データを構築するための新たなパラダイムを提供する。
関連論文リスト
- Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - Training Task Experts through Retrieval Based Distillation [55.46054242512261]
ReBase(Retrieval Based Distillation)は、まずリッチなオンラインソースからデータを抽出し、それをドメイン固有のデータに変換する手法である。
SQADは最大7.8%,MNLIは1.37%,BigBench-Hardは1.94%向上した。
論文 参考訳(メタデータ) (2024-07-07T18:27:59Z) - AgentInstruct: Toward Generative Teaching with Agentic Flows [12.192372792525726]
我々は、ポストトレーニングに合成データを使うこと、特に、他のモデルに新しいスキルや振る舞いを教えるために、強力なモデルでデータを作成することに重点を置いている。
本稿では,多種多様な高品質な合成データを自動生成するエージェントフレームワークであるAgentInstructを紹介する。
テキスト編集,創造的執筆,ツール使用,コーディング,理解の理解など,さまざまなスキルを学習するための,2500万対のポストトレーニングデータセットを作成することで,AgentInstructの有用性を実証する。
論文 参考訳(メタデータ) (2024-07-03T21:01:12Z) - InternLM2 Technical Report [159.70692271378581]
本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。
InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。
InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
論文 参考訳(メタデータ) (2024-03-26T00:53:24Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Rephrasing the Web: A Recipe for Compute and Data-Efficient Language
Modeling [27.975832264345772]
本稿では,Web上の文書をパラフレーズ化するために,既製の命令調整モデルを用いたWeb Rephrase Augmented Pre-training(textbfWRAP$)を提案する。
自然にノイズの多いC4データセットでWRAPを使用することで、プリトレーニングを$sim3x$で高速化する。
同じトレーニング済みの計算予算で、Pileのさまざまなサブセットで平均して10%以上のパープレキシティを改善し、13のタスクでゼロショットの質問応答精度を2%以上改善する。
論文 参考訳(メタデータ) (2024-01-29T18:19:08Z) - BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing [10.698756010878688]
25,005の命令から大規模言語モデル(LLM)を作成する。
命令は、80人のキュレートされた命令からランダムに3列のサンプルを引いたGPT-4言語モデルによって作成される。
いくつかのBioNLPタスクにおいて、これらの命令調整LDMを評価し、質問応答(QA)、情報抽出(IE)、テキスト生成(GEN)の3つの主要なカテゴリに分類できる。
論文 参考訳(メタデータ) (2023-10-30T19:38:50Z) - Maybe Only 0.5% Data is Needed: A Preliminary Exploration of Low
Training Data Instruction Tuning [13.558918552284906]
本稿では,大規模言語モデル(LLM)の指導訓練に使用するデータを削減することに着目し,トレーニングコストの低減とデータ効率の向上を図る。
その結果、タスク固有のモデルは、オリジナルのデータセットの0.5%未満でトレーニングでき、完全なタスク関連のデータでトレーニングされたモデルよりも2%パフォーマンスが向上したことが示唆された。
論文 参考訳(メタデータ) (2023-05-16T07:52:57Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。