論文の概要: Instruction Fine-Tuning: Does Prompt Loss Matter?
- arxiv url: http://arxiv.org/abs/2401.13586v4
- Date: Mon, 14 Oct 2024 01:16:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:05:49.663969
- Title: Instruction Fine-Tuning: Does Prompt Loss Matter?
- Title(参考訳): インストラクションファインチューニング: プロンプト損失は重要か?
- Authors: Mathew Huerta-Enochian, Seung Yong Ko,
- Abstract要約: 教師あり指導微調整(SIFT)におけるPLWの効果について検討する。
PLWの小さな値(0.01 - 0.5)を使用することで、複数選択および短世代ベンチマークにおいてより良い結果が得られた。
この研究は、SIFTにPLWパラメータを提供することの重要性について、APIプロバイダに警告する役割を果たしている。
- 参考スコア(独自算出の注目度): 1.8416014644193066
- License:
- Abstract: We present a novel study analyzing the effects of various prompt loss token weights (PLW) for supervised instruction fine-tuning (SIFT). While prompt-masking (PLW = 0) is common for SIFT, some fine-tuning APIs support fractional PLWs and suggest that using a small non-zero PLW can help stabilize learning when fine-tuning on short-completion data. However, there has never been a study confirming this claim, and OpenAI, a major cloud-based SIFT provider, recently removed this parameter from their fine-tuning API. We found that performance of models fine-tuned on short-completion data had a statistically-significant negative quadratic relationship with PLW. Using small values (0.01 - 0.5) of PLW produced better results on multiple-choice and short-generation benchmarks (outperforming models fine-tuned on long-completion data) while large values (~ 1.0) of PLW produced better results on long-generation benchmarks. We explained this effect and verified its importance through additional experiments. This research serves as a warning to API providers about the importance of providing a PLW parameter for SIFT.
- Abstract(参考訳): 本稿では,命令微調整(SIFT)におけるPLWの効果について検討した。
SIFTではプロンプト・マスキング(PLW = 0)が一般的であるが、いくつかの細調整APIは分数的なPLWをサポートし、小さな非ゼロのPLWを使用することは、短い補完データに基づいて微調整を行う際の学習の安定化に役立つことを示唆している。
しかし、この主張を裏付ける調査は行われず、主要なクラウドベースのSIFTプロバイダであるOpenAIは、最近、このパラメータを彼らの微調整APIから削除した。
短時間補完データに基づいて微調整したモデルの性能はPLWと統計的に有意な負の二次関係を持つことがわかった。
PLWの小さな値 (0.01 - 0.5) を使用することで、複数選択および短世代ベンチマーク(長い補完データに微調整された性能モデル)において、PLWの大きな値 (~1.0) は、長世代ベンチマークにおいてより良い結果を得た。
我々はこの効果を説明し、さらなる実験を通じてその重要性を検証した。
この研究は、SIFTにPLWパラメータを提供することの重要性について、APIプロバイダに警告する役割を果たしている。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - An Empirical Study of Parameter Efficient Fine-tuning on Vision-Language Pre-train Model [33.853380101736306]
PEFTの自然な期待は、様々なPEFTの性能がデータサイズと微調整可能なパラメータサイズに肯定的な関係があることである。
このような直感は、下流のデータとタスクが事前トレーニングと一致していない場合にのみ成立する。
事前トレーニングと整合した下流の微調整では、データサイズはもはやパフォーマンスに影響を与えず、微調整可能なパラメータサイズの影響は単調ではない。
論文 参考訳(メタデータ) (2024-03-13T11:33:38Z) - On the Performance of Empirical Risk Minimization with Smoothed Data [59.3428024282545]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、クラスがiidデータで学習可能であれば、サブ線形誤差を達成できる。
We show that ERM can able to achieve sublinear error when a class are learnable with iid data。
論文 参考訳(メタデータ) (2024-02-22T21:55:41Z) - SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning [10.450910399290818]
初期残基を注入することによりPEFTを増強するSIBOを提案する。
22のベンチマークデータセットに対する大規模な実験により、SIBOは様々な強力なベースラインの性能を著しく向上させ、算術および常識推論タスクにおける既存のPEFTメソッドよりも最大15.7%、23.5%向上した。
論文 参考訳(メタデータ) (2024-02-19T07:22:29Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning [14.975436239088312]
ソフトプロンプトを短いソフトプロンプトと2つの異なる学習率で最適化された低ランク行列に分解するDePTを提案する。
DePTは、いくつかのシナリオにおいて、完全な微調整ベースラインを含む最先端のPEFTアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-11T00:02:05Z) - Sensi-BERT: Towards Sensitivity Driven Fine-Tuning for
Parameter-Efficient BERT [6.029590006321152]
本稿では、下流タスクのための感度駆動効率の良いBERTモデルの微調整であるSensi-BERTを提案する。
実験の結果,MNLI,QQP,QNLI,SST-2,SQuADなどの下流タスクに対するSensi-BERTの有効性が示された。
論文 参考訳(メタデータ) (2023-07-14T17:24:15Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - Sound Event Classification in an Industrial Environment: Pipe Leakage
Detection Use Case [3.9414768019101682]
産業環境におけるパイプ漏れ検出のための多段階機械学習パイプラインを提案する。
提案されたパイプラインは複数のステップを適用し、それぞれが環境の課題に対処する。
その結果, 精度99%, F1スコア0.93, 0.9の優れた結果が得られた。
論文 参考訳(メタデータ) (2022-05-05T15:26:22Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。