論文の概要: MixPro: Simple yet Effective Data Augmentation for Prompt-based Learning
- arxiv url: http://arxiv.org/abs/2304.09402v1
- Date: Wed, 19 Apr 2023 03:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 15:39:23.828990
- Title: MixPro: Simple yet Effective Data Augmentation for Prompt-based Learning
- Title(参考訳): mixpro:プロンプトベース学習のためのシンプルで効果的なデータ拡張
- Authors: Bohan Li, Longxu Dou, Yutai Hou, Yunlong Feng, Honglin Mu, Wanxiang
Che
- Abstract要約: Promptベースの学習は、元の入力とテンプレートを組み合わせることで、下流タスクをクローゼ問題として再構成する。
このテクニックは、限られた量のデータに基づいてモデルを訓練する、数ショットの学習において特に有用である。
そこで我々は,バニラ入力テキストとテンプレートの両方をトークンレベル,文レベル,エポックレベルのミックスアップ戦略によって拡張するMixProという拡張手法を提案する。
- 参考スコア(独自算出の注目度): 51.45856194968655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-based learning reformulates downstream tasks as cloze problems by
combining the original input with a template. This technique is particularly
useful in few-shot learning, where a model is trained on a limited amount of
data. However, the limited templates and text used in few-shot prompt-based
learning still leave significant room for performance improvement.
Additionally, existing methods using model ensembles can constrain the model
efficiency. To address these issues, we propose an augmentation method called
MixPro, which augments both the vanilla input text and the templates through
token-level, sentence-level, and epoch-level Mixup strategies. We conduct
experiments on five few-shot datasets, and the results show that MixPro
outperforms other augmentation baselines, improving model performance by an
average of 5.08% compared to before augmentation.
- Abstract(参考訳): Promptベースの学習は、元の入力とテンプレートを組み合わせることで、下流タスクをクローゼ問題として再構成する。
このテクニックは、限られたデータ量でモデルがトレーニングされる、少数の学習において特に有用である。
しかし、少数のプロンプトベースの学習で使われる限定的なテンプレートとテキストは、パフォーマンス改善の余地を残している。
さらに、モデルアンサンブルを使った既存のメソッドはモデルの効率を制限できる。
そこで本稿では,バニラ入力テキストとテンプレートの両方をトークンレベル,文レベル,エポックレベルのミックスアップ戦略によって拡張するMixProという手法を提案する。
その結果,mixproは他の拡張ベースラインよりも優れており,拡張前のモデル性能は平均5.8%向上していることがわかった。
関連論文リスト
- Analyzing Persuasive Strategies in Meme Texts: A Fusion of Language Models with Paraphrase Enrichment [0.23020018305241333]
本稿では,ミームテキストにおける説得手法の階層的マルチラベル検出へのアプローチについて述べる。
本研究の範囲は、革新的なトレーニング技術とデータ強化戦略を通じて、モデルパフォーマンスの向上を含む。
論文 参考訳(メタデータ) (2024-07-01T20:25:20Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Mind Your Format: Towards Consistent Evaluation of In-Context Learning Improvements [10.687101698324897]
大規模な言語モデルは、いくつかの例から新しいタスクを解くための驚くべき能力を示している。
プロンプトテンプレート、あるいはインプット例をフォーマットしてプロンプトを取得する方法は、コンテキスト内学習の重要な側面であるが、見過ごされがちである。
テンプレートの貧弱な選択は、最強モデルと推論手法の性能をランダムな推測レベルに低下させることができることを示す。
論文 参考訳(メタデータ) (2024-01-12T18:58:26Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Multi-stage Pre-training over Simplified Multimodal Pre-training Models [35.644196343835674]
本稿では, 単語, 句, 文, 画像の粒度の異なる情報を用いて, モデルを段階的に事前訓練する多段階事前学習法を提案する。
また、限られたコーパスから多種多様な知識を効率的に捉えるために、異なる段階における情報粒度に適したいくつかの事前学習タスクを設計する。
実験結果から,本手法はすべての下流タスクにおいて元のLXMERTモデルに匹敵する性能を示し,画像テキスト検索タスクでは元のモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-07-22T03:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。