論文の概要: What Makes Good Data for Alignment? A Comprehensive Study of Automatic
Data Selection in Instruction Tuning
- arxiv url: http://arxiv.org/abs/2312.15685v1
- Date: Mon, 25 Dec 2023 10:29:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:07:15.635354
- Title: What Makes Good Data for Alignment? A Comprehensive Study of Automatic
Data Selection in Instruction Tuning
- Title(参考訳): アライメントのよいデータは何でしょう?
インストラクションチューニングにおける自動データ選択に関する総合的研究
- Authors: Wei Liu, Weihao Zeng, Keqing He, Yong Jiang, Junxian He
- Abstract要約: 本稿では、LLaMAモデルとMistralモデルから微調整された一連のモデルであるdeitaについて述べる。
Deitaは6K SFTトレーニングデータサンプルだけで、最先端のオープンソースアライメントモデルと同等、あるいは同等に動作します。
- 参考スコア(独自算出の注目度): 46.89278992343941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning is a standard technique employed to align large language
models to end tasks and user preferences after the initial pretraining phase.
Recent research indicates the critical role of data engineering in instruction
tuning -- when appropriately selected, only limited data is necessary to
achieve superior performance. However, we still lack a principled understanding
of what makes good instruction tuning data for alignment, and how we should
select data automatically and effectively. In this work, we delve deeply into
automatic data selection strategies for alignment. We start with controlled
studies to measure data across three dimensions: complexity, quality, and
diversity, along which we examine existing methods and introduce novel
techniques for enhanced data measurement. Subsequently, we propose a simple
strategy to select data samples based on the measurement. We present deita
(short for Data-Efficient Instruction Tuning for Alignment), a series of models
fine-tuned from LLaMA and Mistral models using data samples automatically
selected with our proposed approach. Empirically, deita performs better or on
par with the state-of-the-art open-source alignment models with only 6K SFT
training data samples -- over 10x less than the data used in the baselines.
When further trained with direct preference optimization (DPO),
deita-Mistral-7B + DPO trained with 6K SFT and 10K DPO samples achieve 7.55
MT-Bench and 90.06% AlpacaEval scores. We anticipate this work to provide tools
on automatic data selection, facilitating data-efficient alignment. We release
our models as well as the selected datasets for future researches to
effectively align models more efficiently.
- Abstract(参考訳): インストラクションチューニングは、最初の事前学習フェーズの後に、大きな言語モデルをエンドタスクとユーザの好みに合わせるために使用される標準技術である。
最近の研究では、命令チューニングにおいてデータ工学が重要な役割を担っていることを示している -- 適切に選択された場合、優れた性能を得るためには限られたデータのみが必要である。
しかし、アライメントのための優れたインストラクションチューニングデータの作成方法や、データを自動かつ効果的に選択する方法に関する基本的な理解はいまだに欠けている。
本研究では,アライメントのための自動データ選択戦略について深く検討する。
まず,複雑性,品質,多様性の3次元にわたってデータを測定するための制御された研究から始め,既存の手法を検証し,データ測定を強化する新しい手法を導入する。
次に,測定に基づいてデータサンプルを選択するための簡易な方法を提案する。
提案手法で自動選択したデータサンプルを用いて,llamaモデルとmistralモデルから微調整した一連のモデルであるdeita(data- efficient instruction tuning for alignment)を提案する。
実証的には、Deitaは6K SFTトレーニングデータサンプルだけで、最先端のオープンソースアライメントモデルと同等か、あるいは同等に動作します。
直接選好最適化(DPO)でさらに訓練すると、Deita-Mistral-7B + DPOは6K SFTと10K DPOサンプルで訓練され、7.55 MT-Benchと90.06% AlpacaEvalスコアを得た。
この作業は自動データ選択のためのツールを提供し、データ効率の調整を容易にすることを期待する。
私たちは、モデルをより効率的に調整するための将来の研究のために、モデルだけでなく選択したデータセットもリリースします。
関連論文リスト
- TextGram: Towards a better domain-adaptive pretraining [0.3769303106863454]
NLPでは、事前学習は大量のテキストデータを使用して下流タスクを実行するための事前知識を得る。
ドメイン適応型データ選択法であるTextGramを提案する。
提案手法は,他の選択手法よりも有効であることを示す。
論文 参考訳(メタデータ) (2024-04-28T15:44:57Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [69.50855460630105]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - LoBaSS: Gauging Learnability in Supervised Fine-tuning Data [64.27898739929734]
Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) を特定のタスクの前提条件に合わせる上で重要なフェーズである。
SFTデータ選択における新しい次元:学習可能性について紹介する。
そこで我々はLoss Based SFT Data Selection (LoBaSS) 法を提案する。
論文 参考訳(メタデータ) (2023-10-16T07:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。