論文の概要: Evaluating Parameter Efficient Learning for Generation
- arxiv url: http://arxiv.org/abs/2210.13673v1
- Date: Tue, 25 Oct 2022 00:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 14:30:57.904126
- Title: Evaluating Parameter Efficient Learning for Generation
- Title(参考訳): 生成のためのパラメータ効率向上学習の評価
- Authors: Peng Xu, Mostofa Patwary, Shrimai Prabhumoye, Virginia Adams, Ryan J.
Prenger, Wei Ping, Nayeon Lee, Mohammad Shoeybi and Bryan Catanzaro
- Abstract要約: PERMとファインタニングを3つの新しい視点から比較する。
その結果、ドメイン内設定(a)では、PERMsがより少ないサンプルでトレーニングする際の微調整よりも優れた性能を示し、(b)より大きなPLMが存在することがわかった。
また、世代ごとの忠実度を比較し、特に小さなトレーニングセットにおいて、PERMsが微調整よりも忠実度を最大6%向上できることを示す。
- 参考スコア(独自算出の注目度): 32.52577462253145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter efficient learning methods (PERMs) have recently gained significant
attention as they provide an efficient way for pre-trained language models
(PLMs) to adapt to a downstream task. However, these conclusions are mostly
drawn from in-domain evaluations over the full training set. In this paper, we
present comparisons between PERMs and finetuning from three new perspectives:
(1) the effect of sample and model size to in-domain evaluations, (2)
generalization to unseen domains and new datasets, and (3) the faithfulness of
generations. Our results show that for in-domain settings (a) there is a cross
point of sample size for which PERMs will perform better than finetuning when
training with fewer samples, and (b) larger PLMs have larger cross points. For
cross-domain and cross-dataset cases, we show that (a) Adapter (Houlsby et al.,
2019) performs the best amongst all the PERMs studied here, and (b) it
outperforms finetuning if the task dataset is below a certain size. We also
compare the faithfulness of generations and show that PERMs can achieve better
faithfulness score than finetuning, especially for small training set, by as
much as 6%. Finally, we apply Adapter to MT-NLG 530b (Smith et al., 2022) and
achieve new state-of-the-art results on Xsum (Narayan et al., 2018) for all
ROUGE scores (ROUGE-1 49.17, ROUGE-2 27.20, ROUGE-L 40.98).
- Abstract(参考訳): パラメータ効率のよい学習手法(PERMs)は、最近、下流タスクに適応するための事前学習言語モデル(PLMs)の効率的な方法として注目されている。
しかし、これらの結論は主に、完全なトレーニングセットに対するドメイン内評価から導き出される。
本稿では,(1)サンプルサイズとモデルサイズがドメイン内評価に与える影響,(2)見えないドメインや新しいデータセットへの一般化,(3)世代間の忠実さ,という3つの新たな視点から,PERMとファインタニングを比較した。
その結果,ドメイン内設定では
(a)サンプルサイズの交差点があり、サンプルが少ない場合、PERMは微調整よりも優れた性能を発揮する。
b)より大きなPLMは大きな交差点を持つ。
クロスドメインおよびクロスデータセットの場合、
(a)Adapter(Houlsby et al., 2019)は、ここで研究されているすべてのPERMの中で最高のパフォーマンスを示し、
(b)タスクデータセットが一定のサイズ以下であれば、微調整よりも優れます。
また、世代ごとの忠実度を比較し、特に小さなトレーニングセットにおいて、PERMsが微調整よりも忠実度を最大6%向上できることを示す。
最後に、MT-NLG 530b(Smith et al., 2022)にAdapterを適用し、全てのROUGEスコア(ROUGE-1 49.17, ROUGE-2 27.20, ROUGE-L 40.98)に対してXsum(Narayan et al., 2018)に新たな最先端結果を得る。
関連論文リスト
- Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation [51.127054971591924]
本稿では,生成サンプル数を適応的に削減する新たな自己評価手法を提案する。
平均1.2サンプルだけで16サンプルの使用による改善の74%が達成できることを実証した。
論文 参考訳(メタデータ) (2024-10-03T17:47:29Z) - Fisher Information-based Efficient Curriculum Federated Learning with Large Language Models [43.26028399395612]
本稿では,2つの新しい手法を用いたフィッシャー情報に基づく効率的なカリキュラムフェデレート学習フレームワーク(FibecFed)を提案する。
まず,各装置内のデータを適応的にサンプリングし,FL微調整プロセスの有効性を向上させるための漁師情報に基づく手法を提案する。
第2に,グローバルアグリゲーションのための適切なレイヤとLoRAによるローカル更新のためのスパースパラメータを動的に選択する。
論文 参考訳(メタデータ) (2024-09-30T18:12:18Z) - Fine-tuning Large Language Models for Entity Matching [3.7277730514654555]
生成型大規模言語モデル(LLM)は、エンティティマッチングのための事前訓練された言語モデルに代わる有望な代替品である。
本稿では,エンティティマッチングのための微調整LDMの可能性について検討する。
論文 参考訳(メタデータ) (2024-09-12T16:20:57Z) - NUDGE: Lightweight Non-Parametric Fine-Tuning of Embeddings for Retrieval [0.7646713951724011]
既存のアプローチは、事前訓練されたモデル自体を微調整するか、より効率的に、事前訓練されたモデルの出力を変換するためにアダプタモデルを訓練する。
NUDGEは、新しい非パラメトリック埋め込みファインチューニングアプローチのファミリーである。
NUDGEは、$k$-NN検索の精度を最大化するために、データレコードの埋め込みを直接修正する。
論文 参考訳(メタデータ) (2024-09-04T00:10:36Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。
提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文 参考訳(メタデータ) (2024-05-09T01:40:38Z) - DoGE: Domain Reweighting with Generalization Estimation [42.32000165235568]
一般化推定(DoGE)を用いたDOmain再重み付けを提案する。
実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。
DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
論文 参考訳(メタデータ) (2023-10-23T22:51:58Z) - General vs. Long-Tailed Age Estimation: An Approach to Kill Two Birds
with One Stone [48.849311629912734]
本稿では, GLAE という, シンプルで効果的で柔軟な訓練パラダイムを提案する。
私たちのGLAEはMorph IIを驚くほど改善し、それぞれ1.14年と1.27年で最低のMAEとCMAEに達した。
論文 参考訳(メタデータ) (2023-07-19T16:51:59Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。