論文の概要: LoBaSS: Gauging Learnability in Supervised Fine-tuning Data
- arxiv url: http://arxiv.org/abs/2310.13008v1
- Date: Mon, 16 Oct 2023 07:26:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-29 16:10:39.284668
- Title: LoBaSS: Gauging Learnability in Supervised Fine-tuning Data
- Title(参考訳): LoBaSS: 教師付き微調整データにおける学習性向上
- Authors: Haotian Zhou, Tingkai Liu, Qianli Ma, Jianbo Yuan, Pengfei Liu, Yang
You and Hongxia Yang
- Abstract要約: Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) を特定のタスクの前提条件に合わせる上で重要なフェーズである。
SFTデータ選択における新しい次元:学習可能性について紹介する。
そこで我々はLoss Based SFT Data Selection (LoBaSS) 法を提案する。
- 参考スコア(独自算出の注目度): 64.27898739929734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised Fine-Tuning (SFT) serves as a crucial phase in aligning Large
Language Models (LLMs) to specific task prerequisites. The selection of
fine-tuning data profoundly influences the model's performance, whose principle
is traditionally grounded in data quality and distribution. In this paper, we
introduce a new dimension in SFT data selection: learnability. This new
dimension is motivated by the intuition that SFT unlocks capabilities acquired
by a LLM during the pretraining phase. Given that different pretrained models
have disparate capabilities, the SFT data appropriate for one may not suit
another. Thus, we introduce the term learnability to define the suitability of
data for effective learning by the model. We present the Loss Based SFT Data
Selection (LoBaSS) method, utilizing data learnability as the principal
criterion for the selection SFT data. This method provides a nuanced approach,
allowing the alignment of data selection with inherent model capabilities,
ensuring optimal compatibility and learning efficiency. In experimental
comparisons involving 7B and 13B models, our LoBaSS method is able to surpass
full-data fine-tuning at merely 6% of the total training data. When employing
16.7% of the data, LoBaSS harmonizes the model's capabilities across
conversational and mathematical domains, proving its efficacy and adaptability.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) を特定のタスクの前提条件に合わせる上で重要なフェーズである。
微調整データの選定は、伝統的にデータ品質と分散に基礎を置いているモデルの性能に大きな影響を及ぼす。
本稿では,SFTデータ選択における新しい次元:学習可能性について紹介する。
この新たな次元は、SFTが事前訓練フェーズ中にLLMが取得した能力をアンロックするという直感によって動機付けられる。
異なる事前訓練されたモデルが異なる能力を持つことを考えると、SFTのデータは他のモデルに適さないかもしれない。
そこで本研究では,モデルによる効果的な学習のためのデータの適合性を定義するための学習可能性という用語を提案する。
本稿では,sptデータ選択の主基準としてデータ学習性を活用したロスベースsptデータ選択(lobass)手法を提案する。
この方法は、データ選択と固有のモデル機能とのアライメントを可能にし、最適な互換性と学習効率を確保する。
7bモデルと13bモデルとの比較では,全トレーニングデータのわずか6%で全データの微調整を超越することができた。
16.7%のデータを採用した場合、LoBaSSは会話や数学的領域でモデルの能力を調和させ、その有効性と適応性を証明する。
関連論文リスト
- Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - Adaptive Data Optimization: Dynamic Sample Selection with Scaling Laws [59.03420759554073]
本稿では,オンライン手法でデータ分散を最適化するアルゴリズムであるAdaptive Data Optimization (ADO)を導入する。
ADOは外部の知識やプロキシモデル、モデル更新の変更を必要としない。
ADOは、ドメインごとのスケーリング法則を使用して、トレーニング中の各ドメインの学習ポテンシャルを推定し、データ混合を調整する。
論文 参考訳(メタデータ) (2024-10-15T17:47:44Z) - Data Selection via Optimal Control for Language Models [134.67665351539725]
本研究は,大規模コーパスから高品質な事前学習データを選択することにより,下流利用におけるLMの能力を向上させることを目的とする。
PMP条件を解くことで最適なデータ選択を近似するフレームワークであるPMPベースのデータ選択(PDS)を導入する。
PDSの利点は、スケーリング法則に従ってテスト損失曲線の外挿によって証明されたように、10Tトークンでトレーニングされた400Bモデルにまで拡張される。
論文 参考訳(メタデータ) (2024-10-09T17:06:57Z) - Mitigating Training Imbalance in LLM Fine-Tuning via Selective Parameter Merging [11.223074654129915]
大型言語モデル(LLM)を特定のタスクに適応させるためには、SFT(Supervised Fine-tuning)が不可欠である。
本稿では,SFTモデルとデータ順序の微調整を併用することにより,この不均衡を軽減することを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:44:31Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Optimizing V-information for Self-Supervised Pre-training Data-Effective Medical Foundation Models [15.413974936297082]
大規模データセット上での自己教師付き事前トレーニング医療基盤モデルは、例外的なパフォーマンスを示す。
基礎モデル事前学習のための貴重なサンプルを選択するために、データ効率のよい学習手法が導入された。
実世界の医療領域におけるV情報の最適化のための最適なデータ効率学習手法を開発した。
論文 参考訳(メタデータ) (2024-08-13T10:28:54Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models [28.764782216513037]
FL(Federated Learning)は、FLエッジクライアントの分散データとプライベートデータの恩恵を受けることができる。
異種データシナリオにおけるLoRAの重要な制約を克服するSLoRAという手法を提案する。
実験の結果,SLoRAは完全微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-08-12T10:33:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。