論文の概要: Instruction Mining: When Data Mining Meets Large Language Model
Finetuning
- arxiv url: http://arxiv.org/abs/2307.06290v2
- Date: Fri, 27 Oct 2023 20:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 20:51:05.388665
- Title: Instruction Mining: When Data Mining Meets Large Language Model
Finetuning
- Title(参考訳): インストラクションマイニング: 大規模な言語モデルファインタニングにデータマイニングが出会ったとき
- Authors: Yihan Cao, Yanbin Kang, Chi Wang, Lichao Sun
- Abstract要約: InstructMiningは、大規模な言語モデルを微調整するためのプレミアムインストラクションフォローデータを自動的に選択するように設計されている。
InstructMining は LLM-as-a-judge と Huggingface OpenLLM の2つのベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 20.077359677828426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are initially pretrained for broad capabilities
and then finetuned with instruction-following datasets to improve their
performance in interacting with humans. Despite advances in finetuning, a
standardized guideline for selecting high-quality datasets to optimize this
process remains elusive. In this paper, we first propose InstructMining, an
innovative method designed for automatically selecting premium
instruction-following data for finetuning LLMs. Specifically, InstructMining
utilizes natural language indicators as a measure of data quality, applying
them to evaluate unseen datasets. During experimentation, we discover that
double descent phenomenon exists in large language model finetuning. Based on
this observation, we further leverage BlendSearch to help find the best subset
among the entire dataset (i.e., 2,532 out of 100,000). Experiment results show
that InstructMining-7B achieves state-of-the-art performance on two of the most
popular benchmarks: LLM-as-a-judge and Huggingface OpenLLM leaderboard.
- Abstract(参考訳): 大規模言語モデル(llm)は当初、幅広い機能のために事前学習され、次に命令に従うデータセットで微調整され、人間との対話のパフォーマンスが向上する。
微調整の進歩にもかかわらず、このプロセスを最適化するために高品質データセットを選択するための標準化されたガイドラインは、いまだに不明である。
本稿ではまず,LLMを微調整するための高品質な命令追従データを自動的に選択する革新的な手法であるInstructMiningを提案する。
具体的には、InstructMiningは自然言語インジケータをデータ品質の指標として利用し、目に見えないデータセットを評価する。
実験中、大きな言語モデルファインタニングに二重降下現象が存在することが判明した。
この観察に基づいて、BlendSearchをさらに活用して、データセット全体の最高のサブセット(10万中2,532)を見つけるのに役立ちます。
実験の結果、instructmining-7bはllm-as-a-judgeとhughingface openllm leaderboardの2つのベンチマークで最先端のパフォーマンスを達成していることがわかった。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - IterSelectTune: An Iterative Training Framework for Efficient Instruction-Tuning Data Selection [28.581257601441045]
高品質な命令データを選択するための効率的で費用対効果の高い反復的トレーニングポリシーである$textbfIterSelectTune$を紹介した。
ソースデータの約20%を微調整することで、本手法は、全データセット上で調整されたモデルよりも一貫して優れる。
論文 参考訳(メタデータ) (2024-10-17T11:48:57Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - MoDS: Model-oriented Data Selection for Instruction Tuning [35.60124047070829]
本稿では,モデル指向データ選択 (MoDS) 手法を提案する。
実験結果から,提案手法で選択した4000組の命令ペアを微調整したモデルの方が,完全なオリジナルデータセットで微調整したモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-27T09:33:13Z) - LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms [2.249916681499244]
オープンソースMPT-7BおよびMPT-30Bモデルを1kから60kのサンプルから様々なサイズの命令微調整データセットに微調整する。
我々は,(1)従来のNLPベンチマークと(2)モデルに基づく評価の両方において,1k-6k命令の微調整サンプルのサブセットが良好な性能を達成するのに十分であることを確認した。
論文 参考訳(メタデータ) (2023-11-22T03:37:01Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。