Fugu-MT 論文翻訳(概要): MAmmoTH2: Scaling Instructions from the Web

論文の概要: MAmmoTH2: Scaling Instructions from the Web

arxiv url: http://arxiv.org/abs/2405.03548v2
Date: Tue, 14 May 2024 01:36:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-15 18:22:42.312611
Title: MAmmoTH2: Scaling Instructions from the Web
Title（参考訳）: MAmmoTH2: Webからのインストラクションのスケーリング
Authors: Xiang Yue, Tuney Zheng, Ge Zhang, Wenhu Chen,
Abstract要約: そこで本研究では,学習前のWebコーパスから,1000万の自然界に存在するインストラクションデータを効率的に抽出するパラダイムを提案する。我々はMAmmoTH2モデルを構築し、推論ベンチマークの性能を大幅に向上させた。さらに、パブリックインストラクションチューニングデータセット上でMAmmoTH2をトレーニングすると、MAmmoTH2-Plusが得られ、最先端のパフォーマンスが達成される。
参考スコア（独自算出の注目度）: 39.786198452175505
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Instruction tuning improves the reasoning abilities of large language models (LLMs), with data quality and scalability being the crucial factors. Most instruction tuning data come from human crowd-sourcing or GPT-4 distillation. We propose a paradigm to efficiently harvest 10 million naturally existing instruction data from the pre-training web corpus to enhance LLM reasoning. Our approach involves (1) recalling relevant documents, (2) extracting instruction-response pairs, and (3) refining the extracted pairs using open-source LLMs. Fine-tuning base LLMs on this dataset, we build MAmmoTH2 models, which significantly boost performance on reasoning benchmarks. Notably, MAmmoTH2-7B's (Mistral) performance increases from 11% to 34% on MATH and from 36% to 67% on GSM8K without training on any in-domain data. Further training MAmmoTH2 on public instruction tuning datasets yields MAmmoTH2-Plus, achieving state-of-the-art performance on several reasoning and chatbot benchmarks. Our work demonstrates how to harvest large-scale, high-quality instruction data without costly human annotation or GPT-4 distillation, providing a new paradigm for building better instruction tuning data.
Abstract（参考訳）: インストラクションチューニングは、大規模言語モデル(LLM)の推論能力を改善し、データ品質とスケーラビリティが重要な要素である。ほとんどのインストラクションチューニングデータは、人間のクラウドソーシングやGPT-4蒸留に由来する。 LLM推論を強化するために,学習前のWebコーパスから1000万の自然界に存在するインストラクションデータを効率的に抽出するパラダイムを提案する。提案手法では,(1)関連文書のリコール,(2)命令応答対の抽出,(3)オープンソースのLCMを用いて抽出したペアの精製を行う。このデータセットに基づいて微調整ベースLLMを構築し,MAmmoTH2モデルを構築し,推論ベンチマークの性能を著しく向上させる。特に、MAmmoTH2-7Bのパフォーマンスは、MATHでは11%から34%、GSM8Kでは36%から67%に向上した。さらに、パブリックインストラクションチューニングデータセットでMAmmoTH2をトレーニングすると、MAmmoTH2-Plusが得られ、いくつかの推論とチャットボットベンチマークで最先端のパフォーマンスを達成する。本研究は,人為的アノテーションやGPT-4蒸留を使わずに大規模かつ高品質な指導データを収集する方法を実証し,より優れた指導調律データを構築するための新たなパラダイムを提供する。

関連論文リスト

Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models [14.927052028174744]
Infinity-Instructは、大規模言語モデルの基本機能とチャット機能の両方を強化するために設計された高品質な命令データセットである。我々は、Mistral、LLaMA、Qwen、Yiなどのオープンソースモデルを微調整して、Infinity-Instructを実証的に評価し、基礎的および命令的ベンチマークの両方でかなりの性能向上を観察する。
論文参考訳（メタデータ） (2025-06-09T06:37:15Z)
DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training [16.441081996257576]
大規模言語モデル(LLM)は、最近、様々な複雑な推論ベンチマークで顕著なパフォーマンスを達成した。難易度が変化する約334万のユニークなクエリを含む大規模で難易度の高い推論データセットを構築した。 AIME2024の数学的推論ベンチマークで79.2%のパス率を達成することで、ベースモデルの推論能力を大幅に改善する。
論文参考訳（メタデータ） (2025-04-24T13:57:53Z)
The Best Instruction-Tuning Data are Those That Fit [17.401088816596054]
事前訓練された大言語モデル(LLM)から強機能を引き出すためには,SFT(Supervised Fine-tuning)データが必要である。 GRAPE*は,対象モデルの特異な特徴を考慮に入れた,新しいSFTフレームワークである。各命令に対して、様々なLSMからの応答を収集し、ターゲットモデルによって測定された最も高い確率の命令を選択する。
論文参考訳（メタデータ） (2025-02-06T16:31:21Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
IterSelectTune: An Iterative Training Framework for Efficient Instruction-Tuning Data Selection [28.581257601441045]
高品質な命令データを選択するための効率的で費用対効果の高い反復的トレーニングポリシーである$textbfIterSelectTune$を紹介した。ソースデータの約20%を微調整することで、本手法は、全データセット上で調整されたモデルよりも一貫して優れる。
論文参考訳（メタデータ） (2024-10-17T11:48:57Z)
Optimizing Instruction Synthesis: Effective Exploration of Evolutionary Space with Tree Search [25.108044778194536]
命令を効率的に合成するスケーラブルなフレームワークであるIDEA-MCTS (Instruction Data Enhancement using Monte Carlo Tree Search)を紹介した。木探索と評価モデルにより、各命令を効率よくガイドして高品質な形式に進化させ、命令の微調整を支援することができる。実験の結果、IDEA-MCTSはシードインストラクションデータを大幅に向上させ、品質、多様性、複雑さの平均評価スコアを2.19から3.81に引き上げた。
論文参考訳（メタデータ） (2024-10-14T11:28:30Z)
Training Task Experts through Retrieval Based Distillation [55.46054242512261]
ReBase(Retrieval Based Distillation)は、まずリッチなオンラインソースからデータを抽出し、それをドメイン固有のデータに変換する手法である。 SQADは最大7.8%,MNLIは1.37%,BigBench-Hardは1.94%向上した。
論文参考訳（メタデータ） (2024-07-07T18:27:59Z)
InternLM2 Technical Report [159.70692271378581]
本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。 InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。 InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
論文参考訳（メタデータ） (2024-03-26T00:53:24Z)
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文参考訳（メタデータ） (2024-03-22T08:57:07Z)
BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing [10.698756010878688]
25,005の命令から大規模言語モデル(LLM)を作成する。命令は、80人のキュレートされた命令からランダムに3列のサンプルを引いたGPT-4言語モデルによって作成される。いくつかのBioNLPタスクにおいて、これらの命令調整LDMを評価し、質問応答(QA)、情報抽出(IE)、テキスト生成(GEN)の3つの主要なカテゴリに分類できる。
論文参考訳（メタデータ） (2023-10-30T19:38:50Z)
Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文参考訳（メタデータ） (2022-06-15T20:44:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。