論文の概要: How Abilities in Large Language Models are Affected by Supervised
Fine-tuning Data Composition
- arxiv url: http://arxiv.org/abs/2310.05492v2
- Date: Wed, 1 Nov 2023 07:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 16:51:30.658213
- Title: How Abilities in Large Language Models are Affected by Supervised
Fine-tuning Data Composition
- Title(参考訳): 教師付き微調整データ構成による大規模言語モデルの能力への影響
- Authors: Guanting Dong, Hongyi Yuan, Keming Lu, Chengpeng Li, Mingfeng Xue,
Dayiheng Liu, Wei Wang, Zheng Yuan, Chang Zhou, Jingren Zhou
- Abstract要約: 膨大な事前学習トークンとパラメータを持つ大規模言語モデル(LLM)は、算術的推論、コード生成、命令追従を含む能力が出現する。
教師付き微調整(SFT)により複数の能力を持つ鍵を解除する方法を検討することが重要である。
- 参考スコア(独自算出の注目度): 67.02182566213268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) with enormous pre-training tokens and parameter
amounts emerge abilities, including math reasoning, code generation, and
instruction following. These abilities are further enhanced by supervised
fine-tuning (SFT). The open-source community has studied on ad-hoc SFT for each
ability, while proprietary LLMs are versatile for all abilities. It is
important to investigate how to unlock them with multiple abilities via SFT. In
this study, we specifically focus on the data composition between mathematical
reasoning, code generation, and general human-aligning abilities during SFT.
From a scaling perspective, we investigate the relationship between model
abilities and various factors including data amounts, data composition ratio,
model parameters, and SFT strategies. Our experiments reveal that different
abilities exhibit different scaling patterns, and larger models generally show
superior performance with the same amount of data. Mathematical reasoning and
code generation improve as data amounts increase consistently, while the
general ability is enhanced with about a thousand samples and improves slowly.
We find data composition results in various abilities improvements with low
data amounts, while conflicts of abilities with high data amounts. Our
experiments further show that composition data amount impacts performance,
while the influence of composition ratio is insignificant. Regarding the SFT
strategies, we evaluate sequential learning multiple abilities are prone to
catastrophic forgetting. Our proposed Dual-stage Mixed Fine-tuning (DMT)
strategy learns specialized abilities first and then learns general abilities
with a small amount of specialized data to prevent forgetting, offering a
promising solution to learn multiple abilities with different scaling patterns.
- Abstract(参考訳): 膨大な事前学習トークンとパラメータを持つ大規模言語モデル(LLM)は、算術的推論、コード生成、命令追従などの能力を持つ。
これらの能力はsft(supervised fine-tuning)によってさらに強化される。
オープンソースコミュニティは、各能力に対してアドホックなSFTについて研究しているが、プロプライエタリなLLMはすべての能力に汎用性がある。
SFTを介して複数の能力でアンロックする方法を検討することが重要である。
本研究では,SFTにおける数学的推論,コード生成,一般人適応能力間のデータ構成に着目した。
スケーリングの観点から,モデル能力とデータ量,データ合成比,モデルパラメータ,sft戦略などさまざまな要因との関係について検討した。
我々の実験によると、異なる能力は異なるスケーリングパターンを示し、大きなモデルは一般的に同じ量のデータで優れたパフォーマンスを示す。
データ量が一貫して増加するにつれて、数学的推論とコード生成が改善され、1000のサンプルで一般的な能力が向上し、ゆっくりと改善される。
データ構成の結果,低データ量では様々な能力向上が得られ,高データ量では能力の矛盾が生じている。
さらに, 合成データ量が性能に影響を及ぼすのに対し, 組成比の影響は重要でないことを示した。
SFTの戦略に関して、逐次学習の多重能力は破滅的な忘れがちである。
提案したDual-stage Mixed Fine-tuning(DMT)戦略は,まず特殊能力を学習し,次に少量の専門データを用いて汎用能力を学習し,異なるスケーリングパターンで複数の能力を学ぶための有望なソリューションを提供する。
関連論文リスト
- What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Unveiling the Impact of Coding Data Instruction Fine-Tuning on Large Language Models Reasoning [64.5243480989869]
Instruction Fine-Tuning (IFT) は事前訓練されたLarge Language Models (LLM) のゼロショット能力を著しく向上させる
IFT段階におけるLLMの推論能力に及ぼす符号化データの影響について検討する。
論文 参考訳(メタデータ) (2024-05-30T23:20:25Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。