論文の概要: DynaMaR: Dynamic Prompt with Mask Token Representation
- arxiv url: http://arxiv.org/abs/2206.02982v1
- Date: Tue, 7 Jun 2022 02:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 13:49:44.608384
- Title: DynaMaR: Dynamic Prompt with Mask Token Representation
- Title(参考訳): DynaMaR: マスクトーケン表現によるダイナミックプロンプト
- Authors: Xiaodi Sun, Sunny Rajagopalan, Priyanka Nigam, Weiyi Lu, Yi Xu,
Belinda Zeng, Trishul Chilimbi
- Abstract要約: 教師なしのアプローチで事前訓練された大規模な言語モデルは、多くの下流タスクで大幅なパフォーマンス向上を達成できる。
プロンプトベースの微調整は、数発のタスクで成功したアプローチであることが証明されている。
本稿では,これら2つの問題に対処するプロンプトベース微調整の改良を提案する。
- 参考スコア(独自算出の注目度): 14.255578203772162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has shown that large language models pretrained using
unsupervised approaches can achieve significant performance improvement on many
downstream tasks. Typically when adapting these language models to downstream
tasks, like a classification or regression task, we employ a fine-tuning
paradigm in which the sentence representation from the language model is input
to a task-specific head; the model is then fine-tuned end-to-end. However, with
the emergence of models like GPT-3, prompt-based fine-tuning has been proven to
be a successful approach for few-shot tasks. Inspired by this work, we study
discrete prompt technologies in practice. There are two issues that arise with
the standard prompt approach. First, it can overfit on the prompt template.
Second, it requires manual effort to formulate the downstream task as a
language model problem. In this paper, we propose an improvement to
prompt-based fine-tuning that addresses these two issues. We refer to our
approach as DynaMaR -- Dynamic Prompt with Mask Token Representation. Results
show that DynaMaR can achieve an average improvement of 10% in few-shot
settings and improvement of 3.7% in data-rich settings over the standard
fine-tuning approach on four e-commerce applications.
- Abstract(参考訳): 近年の研究では、教師なしアプローチを用いて事前訓練された大規模言語モデルにより、下流タスクにおける大幅な性能向上が達成されている。
通常、分類や回帰タスクのような下流タスクにこれらの言語モデルを適用する場合、言語モデルからの文表現をタスク固有のヘッドに入力する微調整パラダイムを採用します。
しかし、GPT-3のようなモデルが出現すると、プロンプトベースの微調整が数発のタスクで成功していることが証明された。
この研究に触発されて、我々は個別のプロンプト技術を実際に研究した。
標準的なプロンプトアプローチには2つの問題がある。
まず、プロンプトテンプレートに過剰に適合する。
第二に、ダウンストリームタスクを言語モデル問題として定式化するには、手作業が必要です。
本稿では,これらの2つの問題に対処するプロンプトベースファインタニングの改良を提案する。
われわれのアプローチをDynaMaR - Mask Token Representationを用いたDynamic Promptと呼ぶ。
その結果、DynaMaRは4つのeコマースアプリケーションにおける標準的な微調整アプローチよりも、数ショット設定で平均10%改善し、データリッチな設定で3.7%改善できることがわかった。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for
E-Commerce Product Search [4.220439000486713]
検索結果の質を向上させるために,頑健な多言語モデルを提案する。
事前学習の段階では、mlmタスク、分類タスク、コントラスト学習タスクを採用する。
微調整段階では、自信ある学習、指数的移動平均法(EMA)、対人訓練(FGM)、正規化ドロップアウト戦略(R-Drop)を用いる。
論文 参考訳(メタデータ) (2023-01-31T07:31:34Z) - Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation
with Large Language Models [116.25562358482962]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。
PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文 参考訳(メタデータ) (2022-08-16T17:17:53Z) - A Good Prompt Is Worth Millions of Parameters? Low-resource Prompt-based
Learning for Vision-Language Models [50.27305012063483]
FewVLMは、視覚言語タスクに関する数発のプロンプトベースの学習ツールである。
我々はプレフィックス言語モデリング(PrefixLM)とマスク言語モデリング(MaskedLM)を併用したシーケンス・ツー・シーケンス・トランスフォーマーモデルを事前訓練する。
このプロンプトはゼロショット性能に大きく影響するが、少数ショット性能にはほとんど影響しない。
論文 参考訳(メタデータ) (2021-10-16T06:07:59Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z) - WARP: Word-level Adversarial ReProgramming [13.08689221166729]
多くのアプリケーションでは、多くのパラメータを複数のタスクで共有できるように、より小さなパラメータセットをチューニングすることが望ましい。
自動プロンプト生成に関する初期の研究を拡張した逆転プログラミングに基づく代替アプローチを提案する。
提案手法は,SST-2およびMNLIデータセット上で,類似のトレーニング可能なパラメータ数で他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-01T00:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。