論文の概要: How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition
- arxiv url: http://arxiv.org/abs/2310.05492v4
- Date: Fri, 7 Jun 2024 15:51:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 20:56:18.029462
- Title: How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition
- Title(参考訳): 教師付き微調整データ構成による大規模言語モデルの能力への影響
- Authors: Guanting Dong, Hongyi Yuan, Keming Lu, Chengpeng Li, Mingfeng Xue, Dayiheng Liu, Wei Wang, Zheng Yuan, Chang Zhou, Jingren Zhou,
- Abstract要約: 本研究は, 教師付き微調整における数学的推論, コード生成, 一般人適応能力間のデータ合成の相互作用に着目した。
我々の実験では、異なる能力のスケールが異なり、より大きなモデルでは、通常、同じ量のデータで優れたパフォーマンスを示す。
その結果, 合成データの量は, 合成比よりも性能に影響を及ぼすことが示唆された。
- 参考スコア(独自算出の注目度): 64.86360698067764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) with enormous pre-training tokens and parameters emerge diverse abilities, including math reasoning, code generation, and instruction following. These abilities are further enhanced by supervised fine-tuning (SFT). While the open-source community has explored ad-hoc SFT for enhancing individual capabilities, proprietary LLMs exhibit versatility across various skills. Therefore, understanding the facilitation of multiple abilities via SFT is paramount. In this study, we specifically focuses on the interplay of data composition between mathematical reasoning, code generation, and general human-aligning abilities during SFT. We propose four intriguing research questions to explore the association between model performance and various factors including data amount, composition ratio, model size and SFT strategies. Our experiments reveal that distinct capabilities scale differently and larger models generally show superior performance with same amount of data. Mathematical reasoning and code generation consistently improve with increasing data amount, whereas general abilities plateau after roughly a thousand samples. Moreover, we observe data composition appears to enhance various abilities under limited data conditions, yet can lead to performance conflicts when data is plentiful. Our findings also suggest the amount of composition data influences performance more than the composition ratio. In analysis of SFT strategies, we find that sequentially learning multiple skills risks catastrophic forgetting. Our proposed Dual-stage Mixed Fine-tuning (DMT) strategy offers a promising solution to learn multiple abilities with different scaling patterns.
- Abstract(参考訳): 膨大な事前学習トークンとパラメータを持つ大規模言語モデル(LLM)は、算術推論、コード生成、命令追従を含む多様な能力が出現する。
これらの機能は、教師付き微調整(SFT)によってさらに強化される。
オープンソースコミュニティは、個々の能力を向上するためのアドホックなSFTを探してきたが、プロプライエタリなLLMは様々なスキルにまたがって多芸性を示している。
したがって、SFTを介して複数の能力の促進を理解することが最重要である。
本研究では,SFTにおける数学的推論,コード生成,一般人適応能力間のデータ合成の相互作用に着目した。
そこで本研究では,データ量,構成比,モデルサイズ,SFT戦略など,モデル性能と諸要因との関連性を検討するために,興味深い4つの研究課題を提案する。
我々の実験では、異なる能力のスケールが異なり、より大きなモデルでは、通常、同じ量のデータで優れたパフォーマンスを示す。
数学的推論とコード生成はデータ量の増加とともに一貫して改善され、一般的な能力プラトーは約1000のサンプルが得られた。
さらに,データ構成が限られたデータ条件下で様々な能力を増強するように見えるのを観察するが,データが豊富である場合には性能上の矛盾を生じさせる可能性がある。
また, コンポジションデータの量は, コンポジション比よりも性能に影響を及ぼすことが示唆された。
SFT 戦略の分析において,複数のスキルを逐次学習すると破滅的な忘れが生ずることが判明した。
提案したDual-stage Mixed Fine-tuning(DMT)戦略は,異なるスケーリングパターンで複数の能力を学ぶための,有望なソリューションを提供する。
関連論文リスト
- Unveiling the Impact of Coding Data Instruction Fine-Tuning on Large Language Models Reasoning [64.5243480989869]
Instruction Fine-Tuning (IFT) は事前訓練されたLarge Language Models (LLM) のゼロショット能力を著しく向上させる
IFT段階におけるLLMの推論能力に及ぼす符号化データの影響について検討する。
論文 参考訳(メタデータ) (2024-05-30T23:20:25Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Dynamics of Instruction Tuning: Each Ability of Large Language Models
Has Its Own Growth Pace [21.015261553612643]
10の能力にまたがる40k以上のデータセットを提示し、7bから33bのパラメータを持つ命令調整モデルについて検討する。
i) モデル全体の性能がデータとパラメータスケールに結びついているにもかかわらず、個々の能力はこれらの要因に対して異なる感性を持っている。
人為的なデータはGPT-4の合成データより効率が良く、容積の増加とともにモデル性能を常に向上させることができる。
論文 参考訳(メタデータ) (2023-10-30T15:37:10Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Beyond Scale: the Diversity Coefficient as a Data Quality Metric
Demonstrates LLMs are Pre-trained on Formally Diverse Data [12.76278784443243]
我々は最近提案されたTask2Vecの多様性係数を使って、データ品質の形式的側面を理解します。
具体的には、公開事前学習データセットの多様性係数を測定し、それらの形式的多様性が高いことを示す。
多様性係数は信頼性が高く、公開可能なLLMデータセットには高い値を示し、LLMのための有用な多種多様なデータセットを構築するために使用できると推測する。
論文 参考訳(メタデータ) (2023-06-24T02:25:56Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。