論文の概要: Dynamics of Instruction Tuning: Each Ability of Large Language Models
Has Its Own Growth Pace
- arxiv url: http://arxiv.org/abs/2310.19651v1
- Date: Mon, 30 Oct 2023 15:37:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 19:30:59.938356
- Title: Dynamics of Instruction Tuning: Each Ability of Large Language Models
Has Its Own Growth Pace
- Title(参考訳): インストラクションチューニングのダイナミクス:大規模言語モデルのそれぞれの能力には独自の成長ペースがある
- Authors: Chiyu Song, Zhanchao Zhou, Jianhao Yan, Yuejiao Fei, Zhenzhong Lan,
Yue Zhang
- Abstract要約: 本研究では,データ量,パラメータサイズ,データ構築方法が各種能力の発達に与える影響を系統的に検討する。
データボリュームとパラメータスケールがモデル全体のパフォーマンスに直接影響を与えるにもかかわらず、いくつかの能力はモデルの増加に反応し、限られたデータを使って効果的に訓練できる。
これらの結果がより効率的なデータ構築をガイドする方法を実証し、公開ベンチマークの実践的なパフォーマンス改善につながった。
- 参考スコア(独自算出の注目度): 21.015261553612643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning is a burgeoning method to elicit the general intelligence
of Large Language Models (LLMs). However, the creation of instruction data is
still largely heuristic, leading to significant variation in quality and
distribution across existing datasets. Experimental conclusions drawn from
these datasets are also inconsistent, with some studies emphasizing the
importance of scaling instruction numbers, while others argue that a limited
number of samples suffice. To better understand data construction guidelines,
we deepen our focus from the overall model performance to the growth of each
underlying ability, such as creative writing, code generation, and logical
reasoning. We systematically investigate the effects of data volume, parameter
size, and data construction methods on the development of various abilities,
using hundreds of model checkpoints (7b to 33b) fully instruction-tuned on a
new collection of over 40k human-curated instruction data. This proposed
dataset is stringently quality-controlled and categorized into ten distinct LLM
abilities. Our study reveals three primary findings: (i) Despite data volume
and parameter scale directly impacting models' overall performance, some
abilities are more responsive to their increases and can be effectively trained
using limited data, while some are highly resistant to these changes. (ii)
Human-curated data strongly outperforms synthetic data from GPT-4 in efficiency
and can constantly enhance model performance with volume increases, but is
unachievable with synthetic data. (iii) Instruction data brings powerful
cross-ability generalization, with evaluation results on out-of-domain data
mirroring the first two observations. Furthermore, we demonstrate how these
findings can guide more efficient data constructions, leading to practical
performance improvements on public benchmarks.
- Abstract(参考訳): 命令チューニングは、大規模言語モデル(llm)の汎用知性を引き出すための急成長する手法である。
しかし、命令データの作成はいまだにヒューリスティックであり、既存のデータセット間の品質と分散に大きな変化をもたらす。
これらのデータセットから得られた実験的な結論も矛盾しておらず、一部の研究では命令数のスケーリングの重要性を強調している。
データ構築ガイドラインをより深く理解するために、私たちは、全体的なモデルパフォーマンスから、クリエイティブな記述、コード生成、論理的推論といった基礎的な能力の成長まで、焦点を絞ります。
数百のモデルチェックポイント (7b〜33b) を用いて,40k以上のヒューマンキュレート命令データからなる新しいコレクション上で,データボリューム,パラメータサイズ,データ構築手法が様々な能力開発に与える影響を体系的に検討した。
提案したデータセットは、厳密に品質制御され、10の異なるLCM能力に分類される。
私たちの研究は3つの主要な発見を明らかにした。
(i) モデル全体の性能に直接影響を及ぼすデータ量とパラメータスケールにもかかわらず、その増加に反応する能力があり、限られたデータを使って効果的に訓練できる能力がある一方で、これらの変化に強く抵抗する能力もある。
(II)GPT-4の合成データより効率が良く、容積増加とともにモデル性能を常に向上させることができるが、合成データでは達成できない。
(iii)命令データは、最初の2つの観察を反映するドメイン外データに対する評価結果とともに、強力な相互可能性の一般化をもたらす。
さらに、これらの結果がより効率的なデータ構築を導出し、公開ベンチマークの性能改善につながることを実証する。
関連論文リスト
- LESS: Selecting Influential Data for Targeted Instruction Tuning [69.50855460630105]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - One Shot Learning as Instruction Data Prospector for Large Language
Models [111.0897473747819]
Nuggetsは、ワンショット学習を用いて、拡張データセットから高品質な命令データを選択する手法である。
提案手法は,Nuggets が生成した例の上位1%による命令チューニングが,全データセットを使用する従来の手法よりも大幅に優れていたことを実証する。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - Assessing and Enhancing the Robustness of Large Language Models with Task Structure Variations for Logical Reasoning [25.496627355906966]
我々は「ReClor-plus」、「LogiQA-plus」、「LogiQAv2-plus」という3つの新しい論理推論データセットを開発した。
実験により、これらの単純な拡張がモデルの性能を著しく損なうことが示されている。
微調整とプロンプトのためのロジック駆動型データ拡張の適用は、識別モデルと生成モデルの両方における一般化を促進することができる。
論文 参考訳(メタデータ) (2023-10-13T22:29:15Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Exploring the Impact of Instruction Data Scaling on Large Language
Models: An Empirical Study on Real-World Use Cases [17.431381376675432]
本稿では,命令データのスケールの異なる命令データに対して,命令チューニングに基づく大規模言語モデルの性能について検討する。
ベースモデルとしてBloomz-7B1-mtを用いると、命令データの量を増やすだけで、オープン・エンド・ジェネレーションのようなタスクが継続的に改善されることが示される。
本稿では,高品質なトレーニングデータ,スケールベースモデル,ハードタスクに特化したトレーニング手法を効果的に選択する,といった将来的な研究方向を提案する。
論文 参考訳(メタデータ) (2023-03-26T14:49:37Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。