論文の概要: What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning
- arxiv url: http://arxiv.org/abs/2312.15685v2
- Date: Tue, 16 Apr 2024 02:46:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 23:35:28.095207
- Title: What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning
- Title(参考訳): アライメントのための良いデータとは何か : インストラクションチューニングにおける自動データ選択の総合的研究
- Authors: Wei Liu, Weihao Zeng, Keqing He, Yong Jiang, Junxian He,
- Abstract要約: 本稿では、LLaMAモデルとMistralモデルから微調整された一連のモデルであるdeitaについて述べる。
Deitaは6K SFTトレーニングデータサンプルだけで、最先端のオープンソースアライメントモデルと同等、あるいは同等に動作します。
- 参考スコア(独自算出の注目度): 43.708781995814675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning is a standard technique employed to align large language models to end tasks and user preferences after the initial pretraining phase. Recent research indicates the critical role of data engineering in instruction tuning -- when appropriately selected, only limited data is necessary to achieve superior performance. However, we still lack a principled understanding of what makes good instruction tuning data for alignment, and how we should select data automatically and effectively. In this work, we delve deeply into automatic data selection strategies for alignment. We start with controlled studies to measure data across three dimensions: complexity, quality, and diversity, along which we examine existing methods and introduce novel techniques for enhanced data measurement. Subsequently, we propose a simple strategy to select data samples based on the measurement. We present deita (short for Data-Efficient Instruction Tuning for Alignment), a series of models fine-tuned from LLaMA and Mistral models using data samples automatically selected with our proposed approach. Empirically, deita performs better or on par with the state-of-the-art open-source alignment models with only 6K SFT training data samples -- over 10x less than the data used in the baselines. When further trained with direct preference optimization (DPO), deita-Mistral-7B + DPO trained with 6K SFT and 10K DPO samples achieve 7.55 MT-Bench and 90.06% AlpacaEval scores. We anticipate this work to provide tools on automatic data selection, facilitating data-efficient alignment. We release our models as well as the selected datasets for future researches to effectively align models more efficiently.
- Abstract(参考訳): インストラクションチューニング(英: Instruction tuning)は、最初の事前学習フェーズの後に、大きな言語モデルをエンドタスクやユーザの好みに合わせるための標準手法である。
近年の研究では、インストラクションチューニングにおいてデータエンジニアリングが重要な役割を担っていることが示されている。
しかし、アライメントのための優れたインストラクションチューニングデータの作成方法や、データを自動かつ効果的に選択する方法に関する、原則的な理解はいまだに欠けています。
本研究では、アライメントのための自動データ選択戦略について深く研究する。
まず,複雑性,品質,多様性の3次元にわたってデータを測定するための制御された研究から始め,既存の手法を検証し,データ測定を強化する新しい手法を導入する。
そこで本研究では,測定値に基づいてデータサンプルを選択するための簡単な手法を提案する。
本稿では,LLaMAモデルとMistralモデルから抽出した一連のモデルであるdeitaを,提案手法で自動的に選択したデータサンプルを用いて提示する。
実証的には、Deitaは6K SFTトレーニングデータサンプルだけで、最先端のオープンソースアライメントモデルと同等か、あるいは同等に動作します。
直接選好最適化(DPO)でさらに訓練すると、Deita-Mistral-7B + DPOは6K SFTと10K DPOサンプルで訓練され、7.55 MT-Benchと90.06% AlpacaEvalスコアを得た。
この作業は、自動データ選択のためのツールを提供し、データ効率の調整を容易にすることを期待する。
我々は、モデルをより効率的に整合させるために、将来の研究のために選択したデータセットだけでなく、モデルもリリースします。
関連論文リスト
- Efficient Alignment of Large Language Models via Data Sampling [0.4915744683251149]
本稿では,少数の高品質サブセットを同定し,効率的なアライメントのための情報理論に基づく手法を提案する。
提案手法を用いたモデルでは,他のサンプリング手法よりも優れた性能を示し,全データセットに対応するモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-15T19:36:15Z) - A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques [63.10251271444959]
大規模言語モデルは最初、数兆のトークンで事前訓練され、その後、特定の好みに合わせて命令調整または調整される。
我々は,3つの重要な軸に対する人気選択の影響を詳細に調査する。
300以上の実験にまたがるセットアップでは、一貫した傾向と予期せぬ結果が明らかになる。
論文 参考訳(メタデータ) (2024-06-07T12:25:51Z) - TextGram: Towards a better domain-adaptive pretraining [0.3769303106863454]
NLPでは、事前学習は大量のテキストデータを使用して下流タスクを実行するための事前知識を得る。
ドメイン適応型データ選択法であるTextGramを提案する。
提案手法は,他の選択手法よりも有効であることを示す。
論文 参考訳(メタデータ) (2024-04-28T15:44:57Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - LoBaSS: Gauging Learnability in Supervised Fine-tuning Data [64.27898739929734]
Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) を特定のタスクの前提条件に合わせる上で重要なフェーズである。
SFTデータ選択における新しい次元:学習可能性について紹介する。
そこで我々はLoss Based SFT Data Selection (LoBaSS) 法を提案する。
論文 参考訳(メタデータ) (2023-10-16T07:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。