Fugu-MT 論文翻訳(概要): What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning

論文の概要: What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning

arxiv url: http://arxiv.org/abs/2312.15685v1
Date: Mon, 25 Dec 2023 10:29:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 17:07:15.635354
Title: What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning
Title（参考訳）: アライメントのよいデータは何でしょう? インストラクションチューニングにおける自動データ選択に関する総合的研究
Authors: Wei Liu, Weihao Zeng, Keqing He, Yong Jiang, Junxian He
Abstract要約: 本稿では、LLaMAモデルとMistralモデルから微調整された一連のモデルであるdeitaについて述べる。 Deitaは6K SFTトレーニングデータサンプルだけで、最先端のオープンソースアライメントモデルと同等、あるいは同等に動作します。
参考スコア（独自算出の注目度）: 46.89278992343941
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Instruction tuning is a standard technique employed to align large language models to end tasks and user preferences after the initial pretraining phase. Recent research indicates the critical role of data engineering in instruction tuning -- when appropriately selected, only limited data is necessary to achieve superior performance. However, we still lack a principled understanding of what makes good instruction tuning data for alignment, and how we should select data automatically and effectively. In this work, we delve deeply into automatic data selection strategies for alignment. We start with controlled studies to measure data across three dimensions: complexity, quality, and diversity, along which we examine existing methods and introduce novel techniques for enhanced data measurement. Subsequently, we propose a simple strategy to select data samples based on the measurement. We present deita (short for Data-Efficient Instruction Tuning for Alignment), a series of models fine-tuned from LLaMA and Mistral models using data samples automatically selected with our proposed approach. Empirically, deita performs better or on par with the state-of-the-art open-source alignment models with only 6K SFT training data samples -- over 10x less than the data used in the baselines. When further trained with direct preference optimization (DPO), deita-Mistral-7B + DPO trained with 6K SFT and 10K DPO samples achieve 7.55 MT-Bench and 90.06% AlpacaEval scores. We anticipate this work to provide tools on automatic data selection, facilitating data-efficient alignment. We release our models as well as the selected datasets for future researches to effectively align models more efficiently.
Abstract（参考訳）: インストラクションチューニングは、最初の事前学習フェーズの後に、大きな言語モデルをエンドタスクとユーザの好みに合わせるために使用される標準技術である。最近の研究では、命令チューニングにおいてデータ工学が重要な役割を担っていることを示している -- 適切に選択された場合、優れた性能を得るためには限られたデータのみが必要である。しかし、アライメントのための優れたインストラクションチューニングデータの作成方法や、データを自動かつ効果的に選択する方法に関する基本的な理解はいまだに欠けている。本研究では,アライメントのための自動データ選択戦略について深く検討する。まず,複雑性,品質,多様性の3次元にわたってデータを測定するための制御された研究から始め,既存の手法を検証し,データ測定を強化する新しい手法を導入する。次に,測定に基づいてデータサンプルを選択するための簡易な方法を提案する。提案手法で自動選択したデータサンプルを用いて,llamaモデルとmistralモデルから微調整した一連のモデルであるdeita(data- efficient instruction tuning for alignment)を提案する。実証的には、Deitaは6K SFTトレーニングデータサンプルだけで、最先端のオープンソースアライメントモデルと同等か、あるいは同等に動作します。直接選好最適化(DPO)でさらに訓練すると、Deita-Mistral-7B + DPOは6K SFTと10K DPOサンプルで訓練され、7.55 MT-Benchと90.06% AlpacaEvalスコアを得た。この作業は自動データ選択のためのツールを提供し、データ効率の調整を容易にすることを期待する。私たちは、モデルをより効率的に調整するための将来の研究のために、モデルだけでなく選択したデータセットもリリースします。

関連論文リスト

LLM Data Selection and Utilization via Dynamic Bi-level Optimization [100.20933466418786]
本研究では,各バッチ内で選択したデータの重み付けを調整し,トレーニング中の動的データ利用を実現するための新しいデータ重み付けモデル(DWM)を提案する。実験により,DWMはランダムに選択されたデータを用いて訓練されたモデルの性能を向上させることが示された。さらに、トレーニング中にモデルのデータ嗜好がどのように進化するかを分析し、トレーニング中のモデルのデータ嗜好に関する新たな洞察を提供する。
論文参考訳（メタデータ） (2025-07-22T02:47:12Z)
Data Efficacy for Language Model Training [29.901090317084005]
データは言語モデル(LM)の訓練の基礎となる。近年の研究では、トレーニングデータの最小または最適サブセットを選択することで、パフォーマンスを最大化することを目的としている。本研究は、LMトレーニングにおけるデータの有効性を検討するための一般的なパラダイムであるDELTを紹介する。
論文参考訳（メタデータ） (2025-06-26T17:59:07Z)
T-SHIRT: Token-Selective Hierarchical Data Selection for Instruction Tuning [5.963754140027611]
Token-Selective HIeRarchical Data Selection for Instruction Tuning (T-SHIRT)は、新しいデータ選択フレームワークである。我々は、キュレートされたデータセットでチューニングされたモデルが、大規模データセット全体においてトレーニングされたモデルよりも優れていることを実証した。
論文参考訳（メタデータ） (2025-06-02T04:59:17Z)
Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning [40.19639581728674]
タスク固有のデータに対する細調整された大規模言語モデル(LLM)は、その効果的なデプロイメントには不可欠である。データウィスペラ (Data Whisperer) は,数発のインコンテクスト学習とモデルによる微調整を併用した,効率的でトレーニング不要なアテンションベースの手法である。 Data Whispererは、Llama-3-8B-インストラクトモデルの完全なGSM8Kデータセットよりも優れたパフォーマンスを実現し、データの10%しか使用せず、既存のメソッドよりも3.1ポイントの改善と7.4$times$スピードアップを実現している。
論文参考訳（メタデータ） (2025-05-18T03:10:00Z)
Large-Scale Data Selection for Instruction Tuning [20.45142921023614]
命令チューニングのためのデータ選択アプローチは、通常、小さなプールから小さなデータセットを選択することでテストされる。しかし、一般的なインストラクションチューニングモデルでは、数十万から数百万のサンプルをトレーニングし、さらに大きなデータプールからサンプリングすることが多い。この設定では,最近提案された多くの手法はランダムな選択に欠けており,さらに大きなデータプールへのアクセスを与えられると,性能が低下することさえ示している。表現に基づくデータ選択の変種(RDS+)は、テストされたすべての設定において、より複雑なメソッドよりも一貫して優れています。
論文参考訳（メタデータ） (2025-03-03T18:37:26Z)
Predictive Data Selection: The Data That Predicts Is the Data That Teaches [18.99777355043385]
予測データ選択(PreSelect)は,高速テキストベースのスコアラのみのトレーニングとデプロイを必要とする軽量で効率的なデータ選択手法である。我々は、PreSelectで選択された30Bトークンでトレーニングされたモデルが300Bトークンでトレーニングされたバニラベースラインのパフォーマンスを上回ることを示した。
論文参考訳（メタデータ） (2025-03-02T09:21:28Z)
Efficient Alignment of Large Language Models via Data Sampling [0.4915744683251149]
本稿では,少数の高品質サブセットを同定し,効率的なアライメントのための情報理論に基づく手法を提案する。提案手法を用いたモデルでは,他のサンプリング手法よりも優れた性能を示し,全データセットに対応するモデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-11-15T19:36:15Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques [63.10251271444959]
大規模言語モデルは最初、数兆のトークンで事前訓練され、その後、特定の好みに合わせて命令調整または調整される。我々は,3つの重要な軸に対する人気選択の影響を詳細に調査する。 300以上の実験にまたがるセットアップでは、一貫した傾向と予期せぬ結果が明らかになる。
論文参考訳（メタデータ） (2024-06-07T12:25:51Z)
TextGram: Towards a better domain-adaptive pretraining [0.3769303106863454]
NLPでは、事前学習は大量のテキストデータを使用して下流タスクを実行するための事前知識を得る。ドメイン適応型データ選択法であるTextGramを提案する。提案手法は,他の選択手法よりも有効であることを示す。
論文参考訳（メタデータ） (2024-04-28T15:44:57Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文参考訳（メタデータ） (2024-01-23T17:22:00Z)
LoBaSS: Gauging Learnability in Supervised Fine-tuning Data [64.27898739929734]
Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) を特定のタスクの前提条件に合わせる上で重要なフェーズである。 SFTデータ選択における新しい次元:学習可能性について紹介する。そこで我々はLoss Based SFT Data Selection (LoBaSS) 法を提案する。
論文参考訳（メタデータ） (2023-10-16T07:26:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。