論文の概要: Crafting Efficient Fine-Tuning Strategies for Large Language Models
- arxiv url: http://arxiv.org/abs/2407.13906v1
- Date: Thu, 18 Jul 2024 21:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-22 19:32:58.891554
- Title: Crafting Efficient Fine-Tuning Strategies for Large Language Models
- Title(参考訳): 大規模言語モデルのためのファインチューニング手法の開発
- Authors: Michael Oliver, Guan Wang,
- Abstract要約: 200サンプル未満の細調整された大型言語モデル(LLM)は、製品属性抽出タスクにおいて、モデル精度を70%から88%に向上させることができる。
トレーニング時間全体の20%のモデルを評価するベイズハイパーパラメータ最適化法は,最終的なモデル性能と強く相関する。
このアプローチにより、独立したテストセットで評価すると、ベースラインモデルよりも精度が2%向上した。
- 参考スコア(独自算出の注目度): 2.633490094119608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the challenges of efficiently fine-tuning large language models (LLMs) by exploring data efficiency and hyperparameter optimization. We investigate the minimum data required for effective fine-tuning and propose a novel hyperparameter optimization method that leverages early-stage model performance. Our experiments demonstrate that fine-tuning with as few as 200 samples can improve model accuracy from 70\% to 88\% in a product attribute extraction task. We identify a saturation point of approximately 6,500 samples, beyond which additional data yields diminishing returns. Our proposed bayesian hyperparameter optimization method, which evaluates models at 20\% of total training time, correlates strongly with final model performance, with 4 out of 5 top early-stage models remaining in the top 5 at completion. This approach led to a 2\% improvement in accuracy over baseline models when evaluated on an independent test set. These findings offer actionable insights for practitioners, potentially reducing computational load and dependency on extensive datasets while enhancing overall performance of fine-tuned LLMs.
- Abstract(参考訳): 本稿では,データ効率とハイパーパラメータ最適化を探索することで,大規模言語モデル(LLM)を効率的に微調整することの課題に対処する。
実効的な微調整に必要な最小データについて検討し、初期モデルの性能を生かした新しいハイパーパラメータ最適化法を提案する。
実験の結果,200サンプル程度の微調整により,製品属性抽出作業において,モデル精度を70~88倍に向上させることができることがわかった。
約6,500個のサンプルの飽和点を同定し、その上にデータを加えればリターンは減少する。
提案手法は,学習時間全体の20倍のモデル評価を行うベイジアンハイパーパラメータ最適化法であり,最終モデルの性能と強く相関し,完成時点で上位5段階のモデルのうち4つが最上位5段階に留まっている。
このアプローチは、独立したテストセットで評価した場合、ベースラインモデルよりも精度が2倍向上した。
これらの発見は実践者に対して実用的な洞察を与え、計算負荷と広範囲なデータセットへの依存を低減し、微調整LDMの全体的なパフォーマンスを向上させる。
関連論文リスト
- Data-efficient LLM Fine-tuning for Code Generation [30.441431693349866]
大規模言語モデル(LLM)は、コード生成タスクにおいて大きな可能性を証明している。
既存のアプローチは通常、微調整のために大量の合成データを生成する。
コードに基づくLLMのトレーニングの有効性と効率を向上させるために,データ選択戦略を提案する。
論文 参考訳(メタデータ) (2025-04-17T06:29:28Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。
最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。
基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文 参考訳(メタデータ) (2025-01-25T07:21:50Z) - Data-efficient Performance Modeling via Pre-training [0.1227734309612871]
本稿では,ラベル付きデータの必要性を低減するために,オートエンコーダを用いた自己教師付き事前学習方式を提案する。
ランダムプログラムの大規模なデータセットを事前トレーニングすることで、オートエンコーダはコードと変換の表現を学び、パフォーマンスモデルのためのプログラムを埋め込む。
論文 参考訳(メタデータ) (2025-01-24T12:14:53Z) - A Self-Supervised Paradigm for Data-Efficient Medical Foundation Model Pre-training: V-information Optimization Framework [15.413974936297082]
大規模データセット上での自己教師付き事前トレーニング医療基盤モデルは、例外的なパフォーマンスを示す。
近年の研究では、データ効率のよい学習手法を導入して、この共通パラダイムに挑戦している。
本稿では, 基本モデルの自己教師型事前学習にV情報を導入し, サンプル選択の理論的基礎を提供する。
論文 参考訳(メタデータ) (2024-08-13T10:28:54Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Under the Hood of Tabular Data Generation Models: the Strong Impact of Hyperparameter Tuning [2.5168710814072894]
本研究では,モデル統合評価の実践的ニーズに対処する。
高速な最適化を実現するために,各モデルに対する探索空間の削減を提案する。
ほとんどのモデルでは、データセット固有の大規模チューニングによって、オリジナルの構成よりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-06-18T07:27:38Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Not All Data Matters: An End-to-End Adaptive Dataset Pruning Framework
for Enhancing Model Performance and Efficiency [9.460023981858319]
本稿では,AdaPruner と呼ばれる適応型 DAtaset PRUNing フレームワークを提案する。
AdaPrunerは、冗長なサンプルを期待プルーニング比率に反復的にプルークする。
トレーニングデータの最大10~30%をプルーニングしても、モデルパフォーマンスを著しく向上させることができる。
論文 参考訳(メタデータ) (2023-12-09T16:01:21Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How [62.467716468917224]
本稿では,最適事前学習モデルとハイパーパラメータを共同で探索し,微調整する手法を提案する。
本手法は,一連のデータセット上で,事前学習したモデルの性能に関する知識を伝達する。
得られたアプローチによって、新しいデータセットの正確な事前学習モデルを迅速に選択できることを実証的に実証する。
論文 参考訳(メタデータ) (2023-06-06T16:15:26Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Prototypical Fine-tuning: Towards Robust Performance Under Varying Data
Sizes [47.880781811936345]
我々は、微調整事前学習言語モデル(LM)のための新しいフレームワークを提案する。
提案手法は,データポイント数やモデル固有の属性に応じて,モデルキャパシティを自動的に調整することができる。
論文 参考訳(メタデータ) (2022-11-24T14:38:08Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。