論文の概要: MixPro: Simple yet Effective Data Augmentation for Prompt-based Learning
- arxiv url: http://arxiv.org/abs/2304.09402v2
- Date: Sat, 11 Nov 2023 15:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 22:04:31.543967
- Title: MixPro: Simple yet Effective Data Augmentation for Prompt-based Learning
- Title(参考訳): mixpro:プロンプトベース学習のためのシンプルで効果的なデータ拡張
- Authors: Bohan Li, Longxu Dou, Yutai Hou, Yunlong Feng, Honglin Mu, Qingfu Zhu,
Qinghua Sun, Wanxiang Che
- Abstract要約: 我々は、バニラ入力テキストとテンプレートの両方を拡張するために設計された拡張方法であるMixProを紹介する。
実験の結果、MixProは他の拡張ベースラインよりも優れており、モデルパフォーマンスは平均5.08%向上している。
- 参考スコア(独自算出の注目度): 53.185180119904174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-based learning has shown considerable promise in reformulating various
downstream tasks as cloze problems by combining original input with a
predetermined template. This approach demonstrates its effectiveness,
especially in few-shot learning scenarios, where the model is trained on a
scarce amount of data. Despite its successes, the limited templates and text in
few-shot prompt-based learning scenarios leave significant room for performance
improvement. Moreover, existing methods sometimes resort to model ensembles,
which, while effective, could potentially hamper model efficiency due to
increased computational demands. To address these issues, we introduce MixPro,
an augmentation method designed to augment both the vanilla input text and the
templates. We implement this through the token-level, the sentence-level, and
the template-level Mixup strategies. The experimental results on five few-shot
datasets show that MixPro outperforms other augmentation baselines, improving
model performance by an average of 5.08% compared to before augmentation.
- Abstract(参考訳): プロンプトに基づく学習は、元の入力と所定のテンプレートを組み合わせることで、様々な下流タスクをクローゼ問題として再構成する上で大きな可能性を示してきた。
このアプローチは、特に少ない量のデータに基づいてモデルをトレーニングする、数ショットの学習シナリオにおいて、その効果を示す。
その成功にもかかわらず、少数のプロンプトベースの学習シナリオで限定されたテンプレートとテキストは、パフォーマンス改善の余地を残している。
さらに、既存の手法ではモデルアンサンブルを利用する場合もあるが、計算要求の増加によりモデル効率が低下する可能性がある。
これらの問題に対処するため,我々は,バニラ入力テキストとテンプレートの両方を補完する拡張手法であるmixproを紹介する。
これをトークンレベル、文レベル、テンプレートレベルのミックスアップ戦略を通じて実装します。
5つの数ショットデータセットの実験結果は、mixproが他の拡張ベースラインよりも優れており、拡張前のモデルパフォーマンスが平均5.8%向上していることを示している。
関連論文リスト
- Analyzing Persuasive Strategies in Meme Texts: A Fusion of Language Models with Paraphrase Enrichment [0.23020018305241333]
本稿では,ミームテキストにおける説得手法の階層的マルチラベル検出へのアプローチについて述べる。
本研究の範囲は、革新的なトレーニング技術とデータ強化戦略を通じて、モデルパフォーマンスの向上を含む。
論文 参考訳(メタデータ) (2024-07-01T20:25:20Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Mind Your Format: Towards Consistent Evaluation of In-Context Learning Improvements [10.687101698324897]
大規模な言語モデルは、いくつかの例から新しいタスクを解くための驚くべき能力を示している。
プロンプトテンプレート、あるいはインプット例をフォーマットしてプロンプトを取得する方法は、コンテキスト内学習の重要な側面であるが、見過ごされがちである。
テンプレートの貧弱な選択は、最強モデルと推論手法の性能をランダムな推測レベルに低下させることができることを示す。
論文 参考訳(メタデータ) (2024-01-12T18:58:26Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Multi-stage Pre-training over Simplified Multimodal Pre-training Models [35.644196343835674]
本稿では, 単語, 句, 文, 画像の粒度の異なる情報を用いて, モデルを段階的に事前訓練する多段階事前学習法を提案する。
また、限られたコーパスから多種多様な知識を効率的に捉えるために、異なる段階における情報粒度に適したいくつかの事前学習タスクを設計する。
実験結果から,本手法はすべての下流タスクにおいて元のLXMERTモデルに匹敵する性能を示し,画像テキスト検索タスクでは元のモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-07-22T03:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。