論文の概要: WARP: Word-level Adversarial ReProgramming
- arxiv url: http://arxiv.org/abs/2101.00121v1
- Date: Fri, 1 Jan 2021 00:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 11:12:31.395231
- Title: WARP: Word-level Adversarial ReProgramming
- Title(参考訳): WARP: ワードレベルの逆変換
- Authors: Karen Hambardzumyan, Hrant Khachatrian, Jonathan May
- Abstract要約: 多くのアプリケーションでは、多くのパラメータを複数のタスクで共有できるように、より小さなパラメータセットをチューニングすることが望ましい。
自動プロンプト生成に関する初期の研究を拡張した逆転プログラミングに基づく代替アプローチを提案する。
提案手法は,SST-2およびMNLIデータセット上で,類似のトレーニング可能なパラメータ数で他の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 13.08689221166729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning from pretrained language models recently became the
dominant approach for solving many NLP tasks. While fine-tuning large language
models usually gives the best performance, in many applications it is
preferable to tune much smaller sets of parameters, so that the majority of
parameters can be shared across multiple tasks. The main approach is to train
one or more task-specific layers on top of the language model. In this paper we
present an alternative approach based on adversarial reprogramming, which
extends earlier work on automatic prompt generation. It attempts to learn
task-specific word embeddings that, when concatenated to the input text,
instruct the language model to solve the specified task. We show that this
approach outperforms other methods with a similar number of trainable
parameters on SST-2 and MNLI datasets. On SST-2, the performance of our model
is comparable to the fully fine-tuned baseline, while on MNLI it is the best
among the methods that do not modify the parameters of the body of the language
model.
- Abstract(参考訳): 事前訓練された言語モデルからの伝達学習は、最近、多くのNLPタスクを解決する主要なアプローチとなった。
微調整された大きな言語モデルは通常、最高のパフォーマンスを与えるが、多くのアプリケーションでは、より小さなパラメータセットをチューニングすることが好ましいため、ほとんどのパラメータは複数のタスクで共有できる。
主なアプローチは、言語モデルの上に1つ以上のタスク固有のレイヤをトレーニングすることだ。
本稿では,自動プロンプト生成に関する先行研究を拡張した,逆プログラムに基づく代替手法を提案する。
タスク固有の単語埋め込みを学習し、入力テキストに結合すると、指定されたタスクを解決するために言語モデルに指示する。
提案手法は,SST-2およびMNLIデータセット上で,類似のトレーニング可能なパラメータ数で他の手法よりも優れていることを示す。
SST-2では、我々のモデルの性能は、完全に調整されたベースラインに匹敵するが、MNLIでは、言語モデルの本体のパラメータを変更しないメソッドの中で最高のものである。
関連論文リスト
- Less is More: Parameter-Efficient Selection of Intermediate Tasks for Transfer Learning [5.119396962985841]
中間的タスク伝達学習はモデル性能を大幅に向上させることができる。
12kのソース・ターゲット対を用いたNLPタスク転送性とタスク選択に関する最大の研究を行う。
事前の手法でESMを適用すると、それぞれ10と278の因子による実行時間とディスクスペースの使用量が減少する。
論文 参考訳(メタデータ) (2024-10-19T16:22:04Z) - Effectively Prompting Small-sized Language Models for Cross-lingual Tasks via Winning Tickets [2.803947848713182]
現在のソフトプロンプト法は、小型モデルに適用した場合、限られた性能が得られる。
ディーププロンプトチューニングでは、各プロンプトの予測パラメータが有効性を高める。
本稿では,優勝チケットとソフトプロンプトを統合したLottery Ticket Prompt-learningフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-04-01T17:03:16Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Zero-Shot Learners for Natural Language Understanding via a Unified
Multiple Choice Perspective [26.41585967095811]
ゼロショット学習は、与えられたタスクでモデルをトレーニングすることを目的としており、追加のトレーニングなしで新しい学習タスクに対処できる。
提案手法は、ゼロショット学習を複数選択タスクに変換し、FLANなどの大規模生成モデルで一般的に使用される問題を回避する。
提案手法は,いくつかのベンチマークにおいて最先端の性能を示し,自然言語推論やテキスト分類といったタスクに対して良好な結果をもたらす。
論文 参考訳(メタデータ) (2022-10-16T17:24:06Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Switch Point biased Self-Training: Re-purposing Pretrained Models for
Code-Switching [44.034300203700234]
コードスイッチングは、多言語コミュニティにおけるコミュニケーションの容易さから、ユビキタスな現象である。
スイッチポイントバイアスを用いて既存の事前学習モデルを再利用するための自己学習手法を提案する。
本手法は,スイッチポイント性能のギャップを小さくすることで,両タスクにおいて良好に機能する。
論文 参考訳(メタデータ) (2021-11-01T19:42:08Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - UniPELT: A Unified Framework for Parameter-Efficient Language Model
Tuning [64.638804236566]
本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。
注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
論文 参考訳(メタデータ) (2021-10-14T17:40:08Z) - Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。
研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。
我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文 参考訳(メタデータ) (2020-08-14T08:23:21Z) - Exploring Versatile Generative Language Model Via Parameter-Efficient
Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。
5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文 参考訳(メタデータ) (2020-04-08T06:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。