論文の概要: Learning How to Ask: Querying LMs with Mixtures of Soft Prompts
- arxiv url: http://arxiv.org/abs/2104.06599v1
- Date: Wed, 14 Apr 2021 02:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 22:48:48.354018
- Title: Learning How to Ask: Querying LMs with Mixtures of Soft Prompts
- Title(参考訳): 質問の仕方を学ぶ:ソフトプロンプトの混合によるLMのクエリ
- Authors: Guanghui Qin, Jason Eisner
- Abstract要約: 自然言語プロンプトは、最近、事前訓練された言語モデルを他のaiタスクを実行するために使用される。
勾配降下による学習促進の考え方を探求する。
それぞれのタスクに対して、プロンプトの混合を最適化し、どのプロンプトが最も効果的か、それらをアサンブルするかを学ぶ。
- 参考スコア(独自算出の注目度): 33.43689407735244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural-language prompts have recently been used to coax pretrained language
models into performing other AI tasks, using a fill-in-the-blank paradigm
(Petroni et al., 2019) or a few-shot extrapolation paradigm (Brown et al.,
2020). For example, language models retain factual knowledge from their
training corpora that can be extracted by asking them to "fill in the blank" in
a sentential prompt. However, where does this prompt come from? We explore the
idea of learning prompts by gradient descent -- either fine-tuning prompts
taken from previous work, or starting from random initialization. Our prompts
consist of "soft words," i.e., continuous vectors that are not necessarily word
type embeddings from the language model. Furthermore, for each task, we
optimize a mixture of prompts, learning which prompts are most effective and
how to ensemble them. Across multiple English LMs and tasks, our approach
hugely outperforms previous methods, showing that the implicit factual
knowledge in language models was previously underestimated. Moreover, this
knowledge is cheap to elicit: random initialization is nearly as good as
informed initialization.
- Abstract(参考訳): 自然言語のプロンプトは、最近、事前訓練された言語モデルをコークスして他のAIタスクを実行するために使われ、例えば、埋め込んだブランクパラダイム(Petroni et al., 2019)や数ショットの外挿パラダイム(Brown et al., 2020)を使用する。
例えば、言語モデルはトレーニングコーパスから事実的な知識を保持しており、センテンシブプロンプトで「空白に埋もれ」と要求することで抽出することができる。
しかし、このプロンプトはどこから来るのか?
グラデーション降下による学習プロンプト(以前の作業から得られた微調整プロンプトか、ランダム初期化から始めるか)のアイデアを探求する。
我々のプロンプトは「ソフトワード」すなわち、必ずしも言語モデルからの単語型埋め込みではない連続ベクトルから成り立っている。
さらに、各タスクに対して、プロンプトの混合を最適化し、最も効果的なプロンプトを学習し、それらをアンサンブルする方法を学習する。
複数の英語の LM やタスクに対して,従来の手法をはるかに上回り,言語モデルにおける暗黙の事実知識が以前過小評価されていたことを示す。
ランダム初期化はインフォームド初期化と同程度に優れている。
関連論文リスト
- An Empirical Comparison of Vocabulary Expansion and Initialization Approaches for Language Models [31.231720803637085]
言語モデル(LM)は英語の自然言語処理タスクに優れるが、他のほとんどの言語では性能が低下している。
オリジナルのモデルのトークン化子の語彙範囲が限定されているため、新しい言語の表現が不十分になる。
制約付きWord2Vec (CW2V) は言語間埋め込みを必要としない。
論文 参考訳(メタデータ) (2024-07-08T11:38:49Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - Plum: Prompt Learning using Metaheuristic [28.024094195968672]
メタヒューリスティックス(Metaheuristics)は、100以上の選択肢を持つ離散的な非視覚的最適化手法のブランチである。
パラダイム内では6つの典型的な手法をテストし、ホワイトボックスとブラックボックスのプロンプト学習の有効性を実証した。
これらの手法は、より人間に理解可能なプロンプトを発見でき、迅速な最適化の可能性のコルヌコピアへの扉を開くことができる。
論文 参考訳(メタデータ) (2023-11-14T18:14:56Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Zero-shot Cross-lingual Transfer of Prompt-based Tuning with a Unified
Multilingual Prompt [98.26682501616024]
我々はUniPromptと呼ばれるすべての言語に対して統一的なプロンプトを使用する新しいモデルを提案する。
統一的なプロンプトは多言語 PLM による計算であり、言語に依存しない表現を生成する。
提案手法は、異なる言語間で強いベースラインを著しく上回ることができる。
論文 参考訳(メタデータ) (2022-02-23T11:57:52Z) - Context-Tuning: Learning Contextualized Prompts for Natural Language
Generation [52.835877179365525]
自然言語生成のための微調整PLMに対して,Context-Tuningと呼ばれる新しい連続的プロンプト手法を提案する。
まず、入力テキストに基づいてプロンプトを導出し、PLMから有用な知識を抽出して生成する。
第二に、生成したテキストの入力に対する関連性をさらに高めるために、連続的な逆プロンプトを用いて自然言語生成のプロセスを洗練する。
論文 参考訳(メタデータ) (2022-01-21T12:35:28Z) - Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。
現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。
グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文 参考訳(メタデータ) (2021-10-15T14:36:45Z) - Eliciting Knowledge from Language Models for Event Extraction [3.4448178503887807]
本稿では,イベントトリガ検出と引数抽出のための事前学習言語モデルから知識を抽出する。
本稿では,異なるトリガや引数間の相互作用をモデル化することにより,より相補的な知識を導き出す,様々な共同トリガ/引数プロンプト手法を提案する。
我々のアプローチは、少数のサンプルしかトレーニングに使用しない数ショットシナリオにおいて、最近の先進的な手法よりも優れている。
論文 参考訳(メタデータ) (2021-09-11T05:16:33Z) - BERTese: Learning to Speak to BERT [50.76152500085082]
本論文では,より良い知識抽出に向けて直接最適化されたパラフレーズクエリ"BERTese"に自動書き換える手法を提案する。
私たちのアプローチが競合するベースラインを上回ることを実証的に示し、複雑なパイプラインの必要性を回避します。
論文 参考訳(メタデータ) (2021-03-09T10:17:22Z) - Prompt Programming for Large Language Models: Beyond the Few-Shot
Paradigm [0.0]
自然言語のレンズを通してプロンプトを考えることの有用性を強調しながら,プロンプトプログラミングの手法について論じる。
モデルに種を付けて、さまざまなタスクのための独自の自然言語プロンプトを生成するメタプロンプトのアイデアを紹介します。
論文 参考訳(メタデータ) (2021-02-15T05:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。