論文の概要: Automated Data Curation for Robust Language Model Fine-Tuning
- arxiv url: http://arxiv.org/abs/2403.12776v1
- Date: Tue, 19 Mar 2024 14:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 13:53:54.721993
- Title: Automated Data Curation for Robust Language Model Fine-Tuning
- Title(参考訳): ロバスト言語モデルファインチューニングのための自動データキュレーション
- Authors: Jiuhai Chen, Jonas Mueller,
- Abstract要約: 本稿では,データセットのチューニングを行うための自動データキュレーションパイプライン CLEAR を提案する。
CLEARは、どのトレーニングデータが低品質であるかを見積もる。
実験の結果、CLEARは多くのデータセットやモデルにまたがって微調整されたモデルの性能を一貫して改善していることがわかった。
- 参考スコア(独自算出の注目度): 13.8454385440986
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models have become the de facto approach to sequence-to-sequence text generation tasks, but for specialized tasks/domains, a pretrained LLM lacks specific capabilities to produce accurate or well-formatted responses. Supervised fine-tuning specializes a LLM by training it on dataset of example prompts with target responses, but real-world data tends to be noisy. While many fine-tuning algorithms exist, here we consider a \emph{data-centric AI} perspective on LLM fine-tuning, studying how to \emph{systematically} curate the training dataset to improve the LLM produced via \emph{any} fine-tuning algorithm. We introduce an automated data curation pipeline CLEAR (Confidence-based LLM Evaluation And Rectification) for instruction tuning datasets, that can be used with any LLM and fine-tuning procedure. CLEAR estimates which training data is low-quality and either filters or corrects it. Automatically identifying which data to filter or correct is done via LLM-derived confidence estimates, to ensure only confident modifications to the dataset. Unlike existing data curation techniques, CLEAR is a comprehensive framework that can improve a dataset (and trained model outputs) without additional fine-tuning computations. We don't assume access to a stronger LLM than the model being fine-tuned (e.g.\ relying on GPT-4 when fine-tuning GPT-3.5), to see whether CLEAR can meaningfully improve the capabilities of any LLM. Experiments reveal that CLEAR consistently improves the performance of fine-tuned models across many datasets and models (like GPT-3.5 and Llama2).
- Abstract(参考訳): 大規模言語モデルは、シーケンシャル・ツー・シーケンスのテキスト生成タスクに対する事実上のアプローチとなっているが、特定のタスク/ドメインに対して、事前訓練されたLLMは、正確または十分に整列された応答を生成する特別な能力が欠如している。
Supervised Fine-tuningは、ターゲットの応答を持つサンプルプロンプトのデータセットをトレーニングすることでLLMを専門とするが、現実のデータはノイズが多い傾向にある。
多くの微細チューニングアルゴリズムが存在するが、ここでは、LLMの微細チューニングに関する \emph{data-centric AI} の視点について考察し、トレーニングデータセットをキュレートして、 \emph{any} の微細チューニングアルゴリズムによって生成された LLM を改善する方法を研究する。
命令調律データセットのための自動データキュレーションパイプライン CLEAR (Confidence-based LLM Evaluation and Rectification) を導入する。
CLEARは、どのトレーニングデータが低品質であるかを見積もる。
データセットに対する確実な修正のみを保証するため、LLM由来の信頼性推定を通じて、フィルタリングや修正を行うデータを自動的に識別する。
既存のデータキュレーション技術とは異なり、CLEARは、追加の微調整計算なしでデータセット(および訓練済みのモデル出力)を改善するための包括的なフレームワークである。
CLEAR が LLM の能力を有意に向上できるかどうかを確認するため,モデルが微調整された場合 (例えば GPT-3.5 の GPT-4 に依存している場合) よりも強い LLM へのアクセスを前提としない。
実験の結果、CLEARは多くのデータセットやモデル(GPT-3.5やLlama2)にわたって微調整されたモデルの性能を一貫して改善していることがわかった。
関連論文リスト
- MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つ小型モデルを400倍のコストで構築する方法を示す。
既存のデータセットを LLM-AggreFact ベンチマークにまとめる。
我々の最良のシステム MiniCheck-FT5 (770Mパラメータ) は、同等の大きさの全てのシステムより優れ、GPT-4精度に達する。
論文 参考訳(メタデータ) (2024-04-16T17:59:10Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
LLM2LLMは、教師のLLMを使用して、特定のタスクの微調整に使用できる追加データを追加することで、小さなシードデータセットを強化する。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with
Communication Cost under 18 Kilobytes [56.67419203687434]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。
SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文 参考訳(メタデータ) (2023-10-01T17:59:20Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。