論文の概要: Evaluating Parameter Efficient Learning for Generation
- arxiv url: http://arxiv.org/abs/2210.13673v1
- Date: Tue, 25 Oct 2022 00:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 14:30:57.904126
- Title: Evaluating Parameter Efficient Learning for Generation
- Title(参考訳): 生成のためのパラメータ効率向上学習の評価
- Authors: Peng Xu, Mostofa Patwary, Shrimai Prabhumoye, Virginia Adams, Ryan J.
Prenger, Wei Ping, Nayeon Lee, Mohammad Shoeybi and Bryan Catanzaro
- Abstract要約: PERMとファインタニングを3つの新しい視点から比較する。
その結果、ドメイン内設定(a)では、PERMsがより少ないサンプルでトレーニングする際の微調整よりも優れた性能を示し、(b)より大きなPLMが存在することがわかった。
また、世代ごとの忠実度を比較し、特に小さなトレーニングセットにおいて、PERMsが微調整よりも忠実度を最大6%向上できることを示す。
- 参考スコア(独自算出の注目度): 32.52577462253145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter efficient learning methods (PERMs) have recently gained significant
attention as they provide an efficient way for pre-trained language models
(PLMs) to adapt to a downstream task. However, these conclusions are mostly
drawn from in-domain evaluations over the full training set. In this paper, we
present comparisons between PERMs and finetuning from three new perspectives:
(1) the effect of sample and model size to in-domain evaluations, (2)
generalization to unseen domains and new datasets, and (3) the faithfulness of
generations. Our results show that for in-domain settings (a) there is a cross
point of sample size for which PERMs will perform better than finetuning when
training with fewer samples, and (b) larger PLMs have larger cross points. For
cross-domain and cross-dataset cases, we show that (a) Adapter (Houlsby et al.,
2019) performs the best amongst all the PERMs studied here, and (b) it
outperforms finetuning if the task dataset is below a certain size. We also
compare the faithfulness of generations and show that PERMs can achieve better
faithfulness score than finetuning, especially for small training set, by as
much as 6%. Finally, we apply Adapter to MT-NLG 530b (Smith et al., 2022) and
achieve new state-of-the-art results on Xsum (Narayan et al., 2018) for all
ROUGE scores (ROUGE-1 49.17, ROUGE-2 27.20, ROUGE-L 40.98).
- Abstract(参考訳): パラメータ効率のよい学習手法(PERMs)は、最近、下流タスクに適応するための事前学習言語モデル(PLMs)の効率的な方法として注目されている。
しかし、これらの結論は主に、完全なトレーニングセットに対するドメイン内評価から導き出される。
本稿では,(1)サンプルサイズとモデルサイズがドメイン内評価に与える影響,(2)見えないドメインや新しいデータセットへの一般化,(3)世代間の忠実さ,という3つの新たな視点から,PERMとファインタニングを比較した。
その結果,ドメイン内設定では
(a)サンプルサイズの交差点があり、サンプルが少ない場合、PERMは微調整よりも優れた性能を発揮する。
b)より大きなPLMは大きな交差点を持つ。
クロスドメインおよびクロスデータセットの場合、
(a)Adapter(Houlsby et al., 2019)は、ここで研究されているすべてのPERMの中で最高のパフォーマンスを示し、
(b)タスクデータセットが一定のサイズ以下であれば、微調整よりも優れます。
また、世代ごとの忠実度を比較し、特に小さなトレーニングセットにおいて、PERMsが微調整よりも忠実度を最大6%向上できることを示す。
最後に、MT-NLG 530b(Smith et al., 2022)にAdapterを適用し、全てのROUGEスコア(ROUGE-1 49.17, ROUGE-2 27.20, ROUGE-L 40.98)に対してXsum(Narayan et al., 2018)に新たな最先端結果を得る。
関連論文リスト
- Discriminative Sample-Guided and Parameter-Efficient Feature Space
Adaptation for Cross-Domain Few-Shot Learning [0.0]
クロスドメインの少ショット分類は、ラベル付き例がほとんどない未確認領域で新しいクラスを学ぶという難しい課題を示す。
本稿では,パラメータ効率の低い適応戦略を導入し,従来の近距離セントロイドを分散認識損失関数に置き換える。
Meta-Datasetベンチマークの実証的な評価では、我々のアプローチは、それぞれに見えるデータセットと見えないデータセットで、精度を7.7%と5.3%向上させる。
論文 参考訳(メタデータ) (2024-03-07T13:49:29Z) - DoGE: Domain Reweighting with Generalization Estimation [42.32000165235568]
一般化推定(DoGE)を用いたDOmain再重み付けを提案する。
実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。
DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
論文 参考訳(メタデータ) (2023-10-23T22:51:58Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot
Question Answering [68.52980461474752]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - General vs. Long-Tailed Age Estimation: An Approach to Kill Two Birds
with One Stone [48.849311629912734]
本稿では, GLAE という, シンプルで効果的で柔軟な訓練パラダイムを提案する。
私たちのGLAEはMorph IIを驚くほど改善し、それぞれ1.14年と1.27年で最低のMAEとCMAEに達した。
論文 参考訳(メタデータ) (2023-07-19T16:51:59Z) - Towards Inference Efficient Deep Ensemble Learning [35.1550905788943]
アンサンブル法は驚くべき性能向上をもたらすが、計算コストも大幅に高くなる。
本研究では,アンサンブル学習における効率と効率を同時に最適化する,推論効率のよいアンサンブル学習手法を提案する。
実世界のデータセットで異なるバックボーンを用いた実験は、我々の手法が推論コストを最大56%削減できることを示している。
論文 参考訳(メタデータ) (2023-01-29T06:48:53Z) - Multi-Domain Joint Training for Person Re-Identification [51.73921349603597]
ReID(Deep Learning-based person Re-IDentification)は、優れたパフォーマンスを達成するために、大量のトレーニングデータを必要とすることが多い。
多様な環境からより多くのトレーニングデータを集めることで、ReIDのパフォーマンスが向上する傾向にある。
本稿では,パラメータを様々な要因に適応させることができる,Domain-Camera-Sample Dynamic Network (DCSD) というアプローチを提案する。
論文 参考訳(メタデータ) (2022-01-06T09:20:59Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。