論文の概要: Automated Data Curation for Robust Language Model Fine-Tuning
- arxiv url: http://arxiv.org/abs/2403.12776v1
- Date: Tue, 19 Mar 2024 14:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 13:53:54.721993
- Title: Automated Data Curation for Robust Language Model Fine-Tuning
- Title(参考訳): ロバスト言語モデルファインチューニングのための自動データキュレーション
- Authors: Jiuhai Chen, Jonas Mueller,
- Abstract要約: 本稿では,データセットのチューニングを行うための自動データキュレーションパイプライン CLEAR を提案する。
CLEARは、どのトレーニングデータが低品質であるかを見積もる。
実験の結果、CLEARは多くのデータセットやモデルにまたがって微調整されたモデルの性能を一貫して改善していることがわかった。
- 参考スコア(独自算出の注目度): 13.8454385440986
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models have become the de facto approach to sequence-to-sequence text generation tasks, but for specialized tasks/domains, a pretrained LLM lacks specific capabilities to produce accurate or well-formatted responses. Supervised fine-tuning specializes a LLM by training it on dataset of example prompts with target responses, but real-world data tends to be noisy. While many fine-tuning algorithms exist, here we consider a \emph{data-centric AI} perspective on LLM fine-tuning, studying how to \emph{systematically} curate the training dataset to improve the LLM produced via \emph{any} fine-tuning algorithm. We introduce an automated data curation pipeline CLEAR (Confidence-based LLM Evaluation And Rectification) for instruction tuning datasets, that can be used with any LLM and fine-tuning procedure. CLEAR estimates which training data is low-quality and either filters or corrects it. Automatically identifying which data to filter or correct is done via LLM-derived confidence estimates, to ensure only confident modifications to the dataset. Unlike existing data curation techniques, CLEAR is a comprehensive framework that can improve a dataset (and trained model outputs) without additional fine-tuning computations. We don't assume access to a stronger LLM than the model being fine-tuned (e.g.\ relying on GPT-4 when fine-tuning GPT-3.5), to see whether CLEAR can meaningfully improve the capabilities of any LLM. Experiments reveal that CLEAR consistently improves the performance of fine-tuned models across many datasets and models (like GPT-3.5 and Llama2).
- Abstract(参考訳): 大規模言語モデルは、シーケンシャル・ツー・シーケンスのテキスト生成タスクに対する事実上のアプローチとなっているが、特定のタスク/ドメインに対して、事前訓練されたLLMは、正確または十分に整列された応答を生成する特別な能力が欠如している。
Supervised Fine-tuningは、ターゲットの応答を持つサンプルプロンプトのデータセットをトレーニングすることでLLMを専門とするが、現実のデータはノイズが多い傾向にある。
多くの微細チューニングアルゴリズムが存在するが、ここでは、LLMの微細チューニングに関する \emph{data-centric AI} の視点について考察し、トレーニングデータセットをキュレートして、 \emph{any} の微細チューニングアルゴリズムによって生成された LLM を改善する方法を研究する。
命令調律データセットのための自動データキュレーションパイプライン CLEAR (Confidence-based LLM Evaluation and Rectification) を導入する。
CLEARは、どのトレーニングデータが低品質であるかを見積もる。
データセットに対する確実な修正のみを保証するため、LLM由来の信頼性推定を通じて、フィルタリングや修正を行うデータを自動的に識別する。
既存のデータキュレーション技術とは異なり、CLEARは、追加の微調整計算なしでデータセット(および訓練済みのモデル出力)を改善するための包括的なフレームワークである。
CLEAR が LLM の能力を有意に向上できるかどうかを確認するため,モデルが微調整された場合 (例えば GPT-3.5 の GPT-4 に依存している場合) よりも強い LLM へのアクセスを前提としない。
実験の結果、CLEARは多くのデータセットやモデル(GPT-3.5やLlama2)にわたって微調整されたモデルの性能を一貫して改善していることがわかった。
関連論文リスト
- Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning [56.795078085234195]
LLMプルーニングのアプローチは、プルーニングスコアを計算するためのキャリブレーションデータとして、C4データセットに依存している。
本研究では, LLMプルーニングにおけるキャリブレーションデータの選択を, 幅広いデータセットで評価する。
私たちの結果は、微妙でしばしば予期せぬ発見もいくつか見つけました。
論文 参考訳(メタデータ) (2024-10-09T22:00:19Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つが400倍の低コストでファクトチェックモデルを構築する方法を示す。
GPT-4を用いて合成トレーニングデータを構築することで,現実的かつ困難な事実エラーの事例を生成する。
評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。
論文 参考訳(メタデータ) (2024-04-16T17:59:10Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Can Active Label Correction Improve LLM-based Modular AI Systems? [0.8057006406834466]
GPT-3.5アノテートした3つのデータセットのノイズと,その騒音を人間のフィードバックで分析する。
本稿では,トレーニングデータセットに3つの更新を反復的に適用する新しいALC3を提案する。
論文 参考訳(メタデータ) (2024-01-10T14:41:37Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。