論文の概要: Fantastically Ordered Prompts and Where to Find Them: Overcoming
Few-Shot Prompt Order Sensitivity
- arxiv url: http://arxiv.org/abs/2104.08786v1
- Date: Sun, 18 Apr 2021 09:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 07:27:14.985411
- Title: Fantastically Ordered Prompts and Where to Find Them: Overcoming
Few-Shot Prompt Order Sensitivity
- Title(参考訳): すばらしく順序付けされたプロンプトとそれを見つける場所: 数発のプロンプトの感度を克服する
- Authors: Yao Lu, Max Bartolo, Alastair Moore, Sebastian Riedel, Pontus
Stenetorp
- Abstract要約: 少数のトレーニングサンプルしか持たなかった場合、GPT-3のような非常に大きな事前訓練された言語モデルは、競争力のある結果を示した。
サンプルが提供される順序は、ほぼ最先端の予測性能とランダムな推測性能の差であることを示す。
言語モデルの生成特性を利用して人工的な開発セットを構築し、このセットから候補置換のエントロピー統計に基づいて、実行者プロンプトを同定する。
- 参考スコア(独自算出の注目度): 16.893758238773263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When primed with only a handful of training samples, very large pretrained
language models such as GPT-3, have shown competitive results when compared to
fully-supervised fine-tuned large pretrained language models. We demonstrate
that the order in which the samples are provided can be the difference between
near state-of-the-art and random guess performance: Essentially some
permutations are "fantastic" and some not. We analyse this phenomenon in
detail, establishing that: it is present across model sizes (even for the
largest current models), it is not related to a specific subset of samples, and
that a given good permutation for one model is not transferable to another.
While one could use a development set to determine which permutations are
performant, this would deviate from the few-shot setting as it requires
additional annotated data. Instead, we use the generative nature of the
language models to construct an artificial development set and based on entropy
statistics of the candidate permutations from this set we identify performant
prompts. Our method improves upon GPT-family models by on average 13% relative
across eleven different established text classification tasks.
- Abstract(参考訳): gpt-3のような非常に大きな事前学習された言語モデルでは、完全な教師付き事前学習された言語モデルと比較すると、競争力のある結果が得られている。
サンプルが提供された順序は、ほぼ最先端とランダムな推測性能の差であることを示す: 本質的にいくつかの置換は「確率的」で、そうでないものもある。
我々はこの現象を詳細に分析し、モデルのサイズにまたがって存在すること、サンプルの特定の部分集合と関係がないこと、与えられたモデルに対する適切な置換が別のモデルに転送できないこと、を確立する。
どの順列が実行可能かは開発セットで判断できるが、追加の注釈データを必要とするため、これは少数の設定から逸脱する。
代わりに、言語モデルの生成特性を用いて人工的な開発セットを構築し、このセットからの候補置換のエントロピー統計に基づいて、実行子プロンプトを同定する。
本手法は,11種類のテキスト分類タスクに対して,平均13%の相対性でGPTファミリーモデルを改善する。
関連論文リスト
- Forcing Diffuse Distributions out of Language Models [70.28345569190388]
ユーザ命令に従うように特別に訓練されているにもかかわらず、今日の命令付き言語モデルは、ランダムな出力を生成するように指示された場合、性能が良くない。
本稿では,言語モデルに有効な結果に対して拡散した分布を出力することを奨励する微調整手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T19:17:23Z) - Conformal Nucleus Sampling [67.5232384936661]
最上位のp$集合が、様々な言語文脈における確率的意味と実際に一致しているかを評価する。
OPTモデルは過信であり、キャリブレーションはモデルサイズで適度な逆スケーリングを示す。
論文 参考訳(メタデータ) (2023-05-04T08:11:57Z) - Efficient and Flexible Topic Modeling using Pretrained Embeddings and
Bag of Sentences [1.8592384822257952]
本稿では,新しいトピックモデリングと推論アルゴリズムを提案する。
我々は,生成過程モデルとクラスタリングを組み合わせることで,事前学習文の埋め込みを活用する。
The Tailor の評価は,本手法が比較的少ない計算要求で最先端の成果をもたらすことを示している。
論文 参考訳(メタデータ) (2023-02-06T20:13:11Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Hierarchical Few-Shot Generative Models [18.216729811514718]
本稿では,ニューラルネットワークを階層的なアプローチに拡張する潜伏変数のアプローチについて検討する。
以上の結果から,階層的な定式化は,小データ構造における集合内の内在的変動をよりよく捉えることが示唆された。
論文 参考訳(メタデータ) (2021-10-23T19:19:39Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Sparse Text Generation [7.747003493657217]
現在のテキストジェネレータは、修正されたソフトマックスから、温度パラメータや、トップ$k$または核サンプリングのようなアドホックトランケーション技術を介してサンプリングする必要がある。
本稿では,最近導入されたentmax変換を用いて,スパース言語モデルのトレーニングとサンプルを行い,このミスマッチを回避する。
その結果、流布と一貫性、繰り返しの少ない、人間のテキストに近いn-gramの多様性の観点から、良好なパフォーマンスを持つテキストジェネレータが実現した。
論文 参考訳(メタデータ) (2020-04-06T13:09:10Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。