論文の概要: Instruction Mining: High-Quality Instruction Data Selection for Large
Language Models
- arxiv url: http://arxiv.org/abs/2307.06290v1
- Date: Wed, 12 Jul 2023 16:37:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 12:22:31.773335
- Title: Instruction Mining: High-Quality Instruction Data Selection for Large
Language Models
- Title(参考訳): インストラクションマイニング:大規模言語モデルのための高品質インストラクションデータ選択
- Authors: Yihan Cao, Yanbin Kang, Lichao Sun
- Abstract要約: 大規模な言語モデルは、通常、事前訓練と微調整の2つの訓練段階を経る。
近年の研究では、少量の高品質な命令追従データであっても、大規模言語モデルを微調整して性能を向上できることが判明している。
命令追従データ品質を評価する線形ルールであるインストラクトマイニングを提案する。
- 参考スコア(独自算出の注目度): 12.994800333308735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models typically undergo two training stages, pretraining and
finetuning. Despite that large-scale pretraining endows the model with strong
capabilities to generate natural language responses, these pretrained models
can still fail to understand human instructions at times. To enhance language
models' ability of interpreting and responding to instructions, instruction
finetuning has emerged as a critical method in this area. Recent studies found
that large language models can be finetuned to perform well even with a small
amount of high-quality instruction-following data. However, the selection of
high-quality datasets for finetuning language models still lacks clear
guidelines to follow. In this paper, we propose InstructMining, a linear rule
for evaluating instruction-following data quality. We formulate InstructMining
using specific natural language indicators. To investigate the relationship
between data quality and these indicators, we further conduct extensive
finetuning experiments. The experiment results are then applied to estimating
parameters in InstructMining. To further investigate its performance, we use
InstructMining to select high-quality data from unseen datasets. Results
demonstrate that InstructMining can help select relatively high-quality samples
from various instruction-following datasets. Compared to models finetuned on
unfiltered datasets, models finetuned on InstructMining selected datasets
perform better on 42.5% cases.
- Abstract(参考訳): 大規模な言語モデルは通常、事前学習と微調整の2つの訓練段階で行われる。
大規模な事前学習は、自然言語応答を生成する強力な能力を持つモデルに内在するが、これらの事前訓練されたモデルは、同時に人間の指示を理解できない可能性がある。
言語モデルが命令を解釈・応答する能力を高めるために,この領域では命令の微調整が重要な手法となっている。
最近の研究では、大規模な言語モデルは、少量の高品質な命令追従データでもうまく機能するように微調整できることがわかった。
しかし、微調整言語モデルのための高品質なデータセットの選択には、従うべき明確なガイドラインがない。
本稿では,データ品質評価のための線形規則であるインストラクタマイニングを提案する。
特定の自然言語指標を用いて指示を定式化する。
データ品質と指標との関係を調べるため、我々はさらに広範囲な微調整実験を行う。
実験結果は、InstructMiningのパラメータの推定に適用される。
その性能をさらに調査するため,我々はインストラクタを用いて,未知のデータセットから高品質なデータを選択する。
その結果、インストラクタマイニングは、様々な命令追従データセットから比較的高品質なサンプルを選択するのに役立つ。
非フィルタリングデータセットで微調整されたモデルと比較すると、選択したデータセットを微調整したモデルは42.5%のケースでパフォーマンスが向上する。
関連論文リスト
- IterSelectTune: An Iterative Training Framework for Efficient Instruction-Tuning Data Selection [28.581257601441045]
高品質な命令データを選択するための効率的で費用対効果の高い反復的トレーニングポリシーである$textbfIterSelectTune$を紹介した。
ソースデータの約20%を微調整することで、本手法は、全データセット上で調整されたモデルよりも一貫して優れる。
論文 参考訳(メタデータ) (2024-10-17T11:48:57Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - MoDS: Model-oriented Data Selection for Instruction Tuning [35.60124047070829]
本稿では,モデル指向データ選択 (MoDS) 手法を提案する。
実験結果から,提案手法で選択した4000組の命令ペアを微調整したモデルの方が,完全なオリジナルデータセットで微調整したモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-27T09:33:13Z) - LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms [2.249916681499244]
オープンソースMPT-7BおよびMPT-30Bモデルを1kから60kのサンプルから様々なサイズの命令微調整データセットに微調整する。
我々は,(1)従来のNLPベンチマークと(2)モデルに基づく評価の両方において,1k-6k命令の微調整サンプルのサブセットが良好な性能を達成するのに十分であることを確認した。
論文 参考訳(メタデータ) (2023-11-22T03:37:01Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。