論文の概要: What Makes Good Data for Alignment? A Comprehensive Study of Automatic
Data Selection in Instruction Tuning
- arxiv url: http://arxiv.org/abs/2312.15685v1
- Date: Mon, 25 Dec 2023 10:29:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:07:15.635354
- Title: What Makes Good Data for Alignment? A Comprehensive Study of Automatic
Data Selection in Instruction Tuning
- Title(参考訳): アライメントのよいデータは何でしょう?
インストラクションチューニングにおける自動データ選択に関する総合的研究
- Authors: Wei Liu, Weihao Zeng, Keqing He, Yong Jiang, Junxian He
- Abstract要約: 本稿では、LLaMAモデルとMistralモデルから微調整された一連のモデルであるdeitaについて述べる。
Deitaは6K SFTトレーニングデータサンプルだけで、最先端のオープンソースアライメントモデルと同等、あるいは同等に動作します。
- 参考スコア(独自算出の注目度): 46.89278992343941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning is a standard technique employed to align large language
models to end tasks and user preferences after the initial pretraining phase.
Recent research indicates the critical role of data engineering in instruction
tuning -- when appropriately selected, only limited data is necessary to
achieve superior performance. However, we still lack a principled understanding
of what makes good instruction tuning data for alignment, and how we should
select data automatically and effectively. In this work, we delve deeply into
automatic data selection strategies for alignment. We start with controlled
studies to measure data across three dimensions: complexity, quality, and
diversity, along which we examine existing methods and introduce novel
techniques for enhanced data measurement. Subsequently, we propose a simple
strategy to select data samples based on the measurement. We present deita
(short for Data-Efficient Instruction Tuning for Alignment), a series of models
fine-tuned from LLaMA and Mistral models using data samples automatically
selected with our proposed approach. Empirically, deita performs better or on
par with the state-of-the-art open-source alignment models with only 6K SFT
training data samples -- over 10x less than the data used in the baselines.
When further trained with direct preference optimization (DPO),
deita-Mistral-7B + DPO trained with 6K SFT and 10K DPO samples achieve 7.55
MT-Bench and 90.06% AlpacaEval scores. We anticipate this work to provide tools
on automatic data selection, facilitating data-efficient alignment. We release
our models as well as the selected datasets for future researches to
effectively align models more efficiently.
- Abstract(参考訳): インストラクションチューニングは、最初の事前学習フェーズの後に、大きな言語モデルをエンドタスクとユーザの好みに合わせるために使用される標準技術である。
最近の研究では、命令チューニングにおいてデータ工学が重要な役割を担っていることを示している -- 適切に選択された場合、優れた性能を得るためには限られたデータのみが必要である。
しかし、アライメントのための優れたインストラクションチューニングデータの作成方法や、データを自動かつ効果的に選択する方法に関する基本的な理解はいまだに欠けている。
本研究では,アライメントのための自動データ選択戦略について深く検討する。
まず,複雑性,品質,多様性の3次元にわたってデータを測定するための制御された研究から始め,既存の手法を検証し,データ測定を強化する新しい手法を導入する。
次に,測定に基づいてデータサンプルを選択するための簡易な方法を提案する。
提案手法で自動選択したデータサンプルを用いて,llamaモデルとmistralモデルから微調整した一連のモデルであるdeita(data- efficient instruction tuning for alignment)を提案する。
実証的には、Deitaは6K SFTトレーニングデータサンプルだけで、最先端のオープンソースアライメントモデルと同等か、あるいは同等に動作します。
直接選好最適化(DPO)でさらに訓練すると、Deita-Mistral-7B + DPOは6K SFTと10K DPOサンプルで訓練され、7.55 MT-Benchと90.06% AlpacaEvalスコアを得た。
この作業は自動データ選択のためのツールを提供し、データ効率の調整を容易にすることを期待する。
私たちは、モデルをより効率的に調整するための将来の研究のために、モデルだけでなく選択したデータセットもリリースします。
関連論文リスト
- Efficient Alignment of Large Language Models via Data Sampling [0.4915744683251149]
本稿では,少数の高品質サブセットを同定し,効率的なアライメントのための情報理論に基づく手法を提案する。
提案手法を用いたモデルでは,他のサンプリング手法よりも優れた性能を示し,全データセットに対応するモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-15T19:36:15Z) - A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques [63.10251271444959]
大規模言語モデルは最初、数兆のトークンで事前訓練され、その後、特定の好みに合わせて命令調整または調整される。
我々は,3つの重要な軸に対する人気選択の影響を詳細に調査する。
300以上の実験にまたがるセットアップでは、一貫した傾向と予期せぬ結果が明らかになる。
論文 参考訳(メタデータ) (2024-06-07T12:25:51Z) - TextGram: Towards a better domain-adaptive pretraining [0.3769303106863454]
NLPでは、事前学習は大量のテキストデータを使用して下流タスクを実行するための事前知識を得る。
ドメイン適応型データ選択法であるTextGramを提案する。
提案手法は,他の選択手法よりも有効であることを示す。
論文 参考訳(メタデータ) (2024-04-28T15:44:57Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - LoBaSS: Gauging Learnability in Supervised Fine-tuning Data [64.27898739929734]
Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) を特定のタスクの前提条件に合わせる上で重要なフェーズである。
SFTデータ選択における新しい次元:学習可能性について紹介する。
そこで我々はLoss Based SFT Data Selection (LoBaSS) 法を提案する。
論文 参考訳(メタデータ) (2023-10-16T07:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。