論文の概要: Instruction Mining: When Data Mining Meets Large Language Model
Finetuning
- arxiv url: http://arxiv.org/abs/2307.06290v2
- Date: Fri, 27 Oct 2023 20:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 20:51:05.388665
- Title: Instruction Mining: When Data Mining Meets Large Language Model
Finetuning
- Title(参考訳): インストラクションマイニング: 大規模な言語モデルファインタニングにデータマイニングが出会ったとき
- Authors: Yihan Cao, Yanbin Kang, Chi Wang, Lichao Sun
- Abstract要約: InstructMiningは、大規模な言語モデルを微調整するためのプレミアムインストラクションフォローデータを自動的に選択するように設計されている。
InstructMining は LLM-as-a-judge と Huggingface OpenLLM の2つのベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 20.077359677828426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are initially pretrained for broad capabilities
and then finetuned with instruction-following datasets to improve their
performance in interacting with humans. Despite advances in finetuning, a
standardized guideline for selecting high-quality datasets to optimize this
process remains elusive. In this paper, we first propose InstructMining, an
innovative method designed for automatically selecting premium
instruction-following data for finetuning LLMs. Specifically, InstructMining
utilizes natural language indicators as a measure of data quality, applying
them to evaluate unseen datasets. During experimentation, we discover that
double descent phenomenon exists in large language model finetuning. Based on
this observation, we further leverage BlendSearch to help find the best subset
among the entire dataset (i.e., 2,532 out of 100,000). Experiment results show
that InstructMining-7B achieves state-of-the-art performance on two of the most
popular benchmarks: LLM-as-a-judge and Huggingface OpenLLM leaderboard.
- Abstract(参考訳): 大規模言語モデル(llm)は当初、幅広い機能のために事前学習され、次に命令に従うデータセットで微調整され、人間との対話のパフォーマンスが向上する。
微調整の進歩にもかかわらず、このプロセスを最適化するために高品質データセットを選択するための標準化されたガイドラインは、いまだに不明である。
本稿ではまず,LLMを微調整するための高品質な命令追従データを自動的に選択する革新的な手法であるInstructMiningを提案する。
具体的には、InstructMiningは自然言語インジケータをデータ品質の指標として利用し、目に見えないデータセットを評価する。
実験中、大きな言語モデルファインタニングに二重降下現象が存在することが判明した。
この観察に基づいて、BlendSearchをさらに活用して、データセット全体の最高のサブセット(10万中2,532)を見つけるのに役立ちます。
実験の結果、instructmining-7bはllm-as-a-judgeとhughingface openllm leaderboardの2つのベンチマークで最先端のパフォーマンスを達成していることがわかった。
関連論文リスト
- Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [90.4820014819937]
本稿では,分布域外領域を積極的に探索するために,潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観的手法を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整すると,SELMは命令追従ベンチマークの性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Improving Sentence Embeddings with an Automatically Generated NLI
Dataset [15.235687410343171]
デコーダベースの大規模言語モデル(LLM)は、自然言語処理における多くのタスクにおいて高いパフォーマンスを示している。
我々は,NLIデータセットを自動生成することで,教師なし環境で学習した文の埋め込みを改善することを目的とする。
STSタスク実験において, 提案手法は, 平均スピアマンランク相関係数82.21を人体評価で達成した。
論文 参考訳(メタデータ) (2024-02-23T06:33:51Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms [2.249916681499244]
オープンソースMPT-7BおよびMPT-30Bモデルを1kから60kのサンプルから様々なサイズの命令微調整データセットに微調整する。
我々は,(1)従来のNLPベンチマークと(2)モデルに基づく評価の両方において,1k-6k命令の微調整サンプルのサブセットが良好な性能を達成するのに十分であることを確認した。
論文 参考訳(メタデータ) (2023-11-22T03:37:01Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。
スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文 参考訳(メタデータ) (2020-10-23T18:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。