論文の概要: Instruction Fine-Tuning: Does Prompt Loss Matter?
- arxiv url: http://arxiv.org/abs/2401.13586v2
- Date: Sun, 18 Feb 2024 10:12:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:18:31.869813
- Title: Instruction Fine-Tuning: Does Prompt Loss Matter?
- Title(参考訳): インストラクションファインチューニング: プロンプト損失は重要か?
- Authors: Mathew Huerta-Enochian
- Abstract要約: 本稿では,命令の微調整におけるPLWの効果について検討する。
短時間補完データセットで微調整したモデルの性能はPLWと統計的に有意な負の二次関係を持つことがわかった。
非ゼロのPLWはトレーニング中にトレーニング済みのモデル重みから外れないようにし、高いPLWは過度な適合を減少させると結論付けた。
- 参考スコア(独自算出の注目度): 2.1756081703276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a study analyzing the effects of prompt loss weighting (PLW) on
supervised instruction fine-tuning. We recreated Stanford's Alpaca experiment
with both LLaMA 1 and LLaMA 2 and multiple instruction datasets. We found that
performance of models fine-tuned on our short-completion dataset had a
statistically significant negative quadratic relationship with PLW, but
performance of models fine-tuned on medium- and long-completion data did not
show any relationship with PLW. I.e., prompt loss can be safely ignored for
many datasets. For short-completion data, small values (0.01-0.1) of PLW were
optimal for multiple-choice and short-generation tasks while large values (~
1.0) of PLW were optimal for long-generation tasks. We concluded that low
non-zero PLW encourages models to not diverge from pre-trained model weights
during training and high PLW reduces overfitting. Finally, we present a rough
guide for selecting PLW values based on the completion-prompt length ratio of
fine-tuning data.
- Abstract(参考訳): 本稿では,教師付き命令の微調整におけるplwの効果について検討する。
LLaMA 1とLLaMA 2の両方と複数の命令データセットを用いて、スタンフォード大学のAlpaca実験を再現した。
短時間補完データセットで微調整したモデルの性能はPLWと統計的に有意な負の二次関係を示したが,中長期補完データで微調整したモデルの性能はPLWとは何の関係も示さなかった。
即時損失は多くのデータセットに対して安全に無視できる。
短時間補完データの場合,PLWの小さな値 (0.01-0.1) は複数選択および短世代タスクに最適であり,PLWの大きな値 (~1.0) は長世代タスクに最適であった。
その結果、低非ゼロPLWはトレーニング中にトレーニング済みモデル重量から逸脱しないようにし、高いPLWは過度な適合を減少させる。
最後に、微調整データの完成-急激な長さ比に基づいてPLW値を選択するための粗いガイドを示す。
関連論文リスト
- Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning [14.975436239088312]
ソフトプロンプトを短いソフトプロンプトと2つの異なる学習率で最適化された低ランク行列に分解するDePTを提案する。
DePTは、いくつかのシナリオにおいて、完全な微調整ベースラインを含む最先端のPEFTアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-11T00:02:05Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - On minimizing the training set fill distance in machine learning
regression [0.6526824510982802]
本研究では,選択した集合の充填距離を最小化することを目的としたデータ選択手法を提案する。
FPSを用いてトレーニングセットを選択することで、ガウスカーネル回帰アプローチの特定の場合のモデルの安定性を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-07-20T16:18:33Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - When does Parameter-Efficient Transfer Learning Work for Machine
Translation? [8.862707047517913]
以前の研究は、PEFTは機械翻訳(MT)ではうまく機能しないことを示している。
我々は,(1)パラメータ予算,(2)言語ペアの多種多様なセット,(3)事前学習モデルを考慮した,MT用PEFTの総合的な実証的研究を行った。
事前学習モデルが大きいPEFTを用いて、より小さなモデルで完全な微調整を行うことができ、訓練データサイズが小さい場合には、同じ事前学習モデルで完全な微調整を行う。
論文 参考訳(メタデータ) (2022-05-23T12:49:46Z) - ADT-SSL: Adaptive Dual-Threshold for Semi-Supervised Learning [68.53717108812297]
Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータを併用してモデルをトレーニングすることで、高度な分類タスクを実現している。
本稿では,半教師付き学習(ADT-SSL)のための適応的デュアル閾値法を提案する。
実験の結果,提案したADT-SSLは最先端の分類精度を実現することがわかった。
論文 参考訳(メタデータ) (2022-05-21T11:52:08Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - Learning representations with end-to-end models for improved remaining
useful life prognostics [64.80885001058572]
残りの設備の実用寿命(RUL)は、現在の時刻と故障までの期間として定義される。
マルチ層パーセプトロンと長期メモリ層(LSTM)に基づくエンドツーエンドのディープラーニングモデルを提案し、RULを予測する。
提案するエンド・ツー・エンドのモデルがこのような優れた結果を達成し、他のディープラーニングや最先端の手法と比較する方法について論じる。
論文 参考訳(メタデータ) (2021-04-11T16:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。