論文の概要: Smaller Language Models are capable of selecting Instruction-Tuning
Training Data for Larger Language Models
- arxiv url: http://arxiv.org/abs/2402.10430v1
- Date: Fri, 16 Feb 2024 03:39:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 17:28:10.836571
- Title: Smaller Language Models are capable of selecting Instruction-Tuning
Training Data for Larger Language Models
- Title(参考訳): より小さな言語モデルは、より大きな言語モデルのための命令チューニングトレーニングデータを選択することができる
- Authors: Dheeraj Mekala, Alex Nguyen, Jingbo Shang
- Abstract要約: サンプルの学習率に基づいて,新しい学習データ選択を導入する。
現在の言語モデルには、高品質なトレーニングデータを自律的に選択する能力がある、と我々は主張する。
本稿では,データ選択のトレーニングに新たなアプローチを導入し,より効率的な代替手段を示す。
- 参考スコア(独自算出の注目度): 39.65879784788677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-tuning language models has become a crucial step in aligning them
for general use. Typically, this process involves extensive training on large
datasets, incurring high training costs. In this paper, we introduce a novel
training data selection based on the learning percentage of the samples. We
assert that current language models possess the capability to autonomously
select high-quality training data, leading to comparable or improved
performance compared to training on the entire dataset. Our experiments span
different-sized models, revealing that this characteristic holds for models
ranging from 1B (small) to 13B (large) in size. Moreover, we demonstrate an
interesting finding that the data hardness transfers across model sizes, and a
smaller 350M model can effectively curate high-quality training data with hard
samples for a larger 13B model, resulting in an equally or superior
instruction-tuned model compared to training on the complete dataset. Utilizing
open-sourced OPT and Llama-2 models up to 13B in size, two publicly available
instruction-tuning training datasets and evaluated by both automatic metrics &
humans, our paper introduces a novel approach to training data selection,
showcasing a more efficient alternative.
- Abstract(参考訳): インストラクションチューニング言語モデルは、それらを一般的な用途に合わせるための重要なステップとなっている。
通常、このプロセスは大規模なデータセットに対する広範なトレーニングを伴い、高いトレーニングコストを伴います。
本稿では,サンプルの学習率に基づく新しい学習データ選択を提案する。
現在の言語モデルは、高品質なトレーニングデータを自動的に選択する能力を有しており、データセット全体のトレーニングと同等か、あるいは改善されていると断言します。
実験では, 1B (小) から 13B (大) のモデルに対して, この特性が有効であることを明らかにする。
さらに,データ硬度がモデルサイズにまたがって伝達され,より小さな350Mモデルでは,より大規模な13Bモデルのハードサンプルを用いて,高品質なトレーニングデータを効果的にキュレートすることが可能であることを示す。
オープンソース OPT と Llama-2 モデルのサイズを最大 13B まで利用し、2 つの教育訓練データセットを公開し、自動メトリクスと人間の両方で評価し、データ選択をトレーニングするための新しいアプローチを導入し、より効率的な代替手段を示す。
関連論文リスト
- What Should Baby Models Read? Exploring Sample-Efficient Data Composition on Model Performance [0.0]
我々は、子指向音声(CHILDES)、古典書(Gutenberg)、合成データ(TinyStories)、様々なモデルサイズにまたがる混合データなど、いくつかのデータセットソースを評価した。
GPT2-97M, GPT2-705M, Llama-360Mなどの小さなモデルでは, Gutenbergのようなより複雑でリッチなデータセットでトレーニングすると, より優れた性能が得られた。
論文 参考訳(メタデータ) (2024-11-11T02:37:21Z) - QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - Data Selection Curriculum for Neural Machine Translation [31.55953464971441]
NMTモデルのための2段階のカリキュラムトレーニングフレームワークを提案する。
我々は、事前学習法とオンラインスコアを用いた決定論的スコアリングの両方によって選択されたデータのサブセットに基づいてベースNMTモデルを微調整する。
我々のカリキュラム戦略は、常により良い品質(+2.2BLEUの改善)とより高速な収束を示すことを示した。
論文 参考訳(メタデータ) (2022-03-25T19:08:30Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - It's the Best Only When It Fits You Most: Finding Related Models for
Serving Based on Dynamic Locality Sensitive Hashing [1.581913948762905]
トレーニングデータの作成は、生産や研究のためにディープラーニングモデルをデプロイするライフサイクルにおいて、しばしばボトルネックとなる。
本稿では,対象のデータセットと利用可能なモデルのトレーニングデータセットの類似性に基づいて,関連するモデルを検索してサービスするエンド・ツー・エンドプロセスを提案する。
論文 参考訳(メタデータ) (2020-10-13T22:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。