論文の概要: Exploring the Impact of Instruction Data Scaling on Large Language
Models: An Empirical Study on Real-World Use Cases
- arxiv url: http://arxiv.org/abs/2303.14742v1
- Date: Sun, 26 Mar 2023 14:49:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 17:53:40.718008
- Title: Exploring the Impact of Instruction Data Scaling on Large Language
Models: An Empirical Study on Real-World Use Cases
- Title(参考訳): インストラクションデータスケーリングが大規模言語モデルに及ぼす影響を探る:実世界の事例を事例として
- Authors: Yunjie Ji, Yong Deng, Yan Gong, Yiping Peng, Qiang Niu, Lei Zhang,
Baochang Ma, Xiangang Li
- Abstract要約: 本稿では,命令データのスケールの異なる命令データに対して,命令チューニングに基づく大規模言語モデルの性能について検討する。
ベースモデルとしてBloomz-7B1-mtを用いると、命令データの量を増やすだけで、オープン・エンド・ジェネレーションのようなタスクが継続的に改善されることが示される。
本稿では,高品質なトレーニングデータ,スケールベースモデル,ハードタスクに特化したトレーニング手法を効果的に選択する,といった将来的な研究方向を提案する。
- 参考スコア(独自算出の注目度): 17.431381376675432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of ChatGPT has recently attracted numerous efforts to replicate
it, with instruction-tuning strategies being a key factor in achieving
remarkable results. Instruction-tuning not only significantly enhances the
model's performance and generalization but also makes the model's generated
results more consistent with human speech patterns. However current research
rarely studies the impact of different amounts of instruction data on model
performance, especially in the real-world use cases. In this paper we explore
the performance of large language models based on instruction tuning across
different scales of instruction data. An evaluation dataset consisting of 12
major online use cases is constructed in the experiment. With Bloomz-7B1-mt as
the base model, the results show that 1) merely increasing the amount of
instruction data leads to continuous improvement in tasks such as open-ended
generation, 2) in tasks such as math and code, the model performance curve
remains quite flat while increasing data size. We further analyze the possible
causes of these phenomena and propose potential future research directions such
as effectively selecting high-quality training data, scaling base models and
training methods specialized for hard tasks. We will release our training and
evaluation datasets, as well as model checkpoints.
- Abstract(参考訳): chatgptの成功は、最近それを再現するために多くの努力を惹きつけており、命令のチューニング戦略が目覚ましい結果を達成する上で重要な要因となっている。
インストラクションチューニングは、モデルの性能と一般化を著しく向上させるだけでなく、モデルが生成した結果を人間の音声パターンとより整合させる。
しかし、現在の研究では、特に実世界のユースケースにおいて、異なる量の命令データがモデル性能に与える影響をほとんど研究していない。
本稿では,命令データのスケールの異なる命令チューニングに基づく大規模言語モデルの性能について検討する。
実験では、12の主要オンラインユースケースからなる評価データセットを構築した。
ベースモデルとしてbloomz-7b1-mtを用いると
1) 単に命令データの量を増やすだけで、オープンエンド生成などのタスクが継続的に改善される。
2) 数学やコードなどのタスクでは,データサイズを増大させながら,モデル性能曲線はかなり平坦なままである。
さらに,これらの現象の原因を解析し,高品質なトレーニングデータ,スケールベースモデル,ハードタスクに特化したトレーニング方法など,今後の研究の方向性を提案する。
トレーニングと評価のデータセットとモデルチェックポイントをリリースします。
関連論文リスト
- A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data [9.57464542357693]
実世界のモデリングパイプラインは、しばしばデータセット固有の前処理と特徴工学を必要とするため、モデル中心の評価は偏りがあることを実証する。
Kaggleコンペティションから10の関連するデータセットを選択し、データセット毎に専門家レベルの前処理パイプラインを実装します。
データセット固有の機能エンジニアリングの後、モデルランキングは大幅に変化し、性能差が減少し、モデル選択の重要性が低下する。
論文 参考訳(メタデータ) (2024-07-02T09:54:39Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Dynamics of Instruction Tuning: Each Ability of Large Language Models
Has Its Own Growth Pace [21.015261553612643]
10の能力にまたがる40k以上のデータセットを提示し、7bから33bのパラメータを持つ命令調整モデルについて検討する。
i) モデル全体の性能がデータとパラメータスケールに結びついているにもかかわらず、個々の能力はこれらの要因に対して異なる感性を持っている。
人為的なデータはGPT-4の合成データより効率が良く、容積の増加とともにモデル性能を常に向上させることができる。
論文 参考訳(メタデータ) (2023-10-30T15:37:10Z) - Exploring the Effects of Data Augmentation for Drivable Area
Segmentation [0.0]
既存の画像データセットを解析することで、データ拡張の利点を調べることに重点を置いている。
以上の結果から,既存技術(SOTA)モデルの性能とロバスト性は劇的に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-06T03:39:37Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Model-specific Data Subsampling with Influence Functions [37.64859614131316]
トレーニングポイントが様々な影響を持つ場合、ランダムサンプリングよりも優れたモデル固有データサブサンプリング戦略を開発する。
具体的には、影響関数を活用して、選択戦略をガイドし、理論的に証明し、我々のアプローチが素早く高品質なモデルを選択することを実証する。
論文 参考訳(メタデータ) (2020-10-20T12:10:28Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。