論文の概要: Understanding How Model Size Affects Few-shot Instruction Prompting
- arxiv url: http://arxiv.org/abs/2212.01907v1
- Date: Sun, 4 Dec 2022 19:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 15:12:23.024268
- Title: Understanding How Model Size Affects Few-shot Instruction Prompting
- Title(参考訳): モデルサイズが少数の命令プロンプトに与える影響を理解する
- Authors: Ayrton San Joaquin and Ardy Haroen
- Abstract要約: モデルのサイズが与えられた文脈における単語の意味を識別するモデルの能力にどのように影響するかを検討する。
我々はDeltaWordsと呼ばれるデータセットを導入し、モデルが指示に従う能力を評価する。
モデルのサイズが大きくなるにつれてタスクの精度が低下する、弱い逆スケーリング傾向を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models are affected by the phenomena of memorizing and
forgetting their training data. But how do these vary by model size? We work
towards this question by investigating how the model size affects the model's
ability to discriminate a word's meaning in a given context. We introduce a
dataset called DeltaWords, which evaluates a model's ability to follow
instructions to select a sentence which replaces the target word with its
antonym. We show a weak inverse scaling trend, where task accuracy degrades as
model size increase, under extremely few-shot prompting regimes. We show that
increasing the number of examples tend to disproportionately benefit larger
models than smaller models.
- Abstract(参考訳): 大規模言語モデルは、トレーニングデータを記憶したり忘れたりする現象に影響を受けます。
しかし、モデルのサイズによってどう違うのか?
モデルのサイズが、与えられた文脈で単語の意味を識別するモデルの能力にどのように影響するかを調べることで、この問題に取り組みます。
我々はDeltaWordsと呼ばれるデータセットを導入し、モデルが対象の単語を同義語に置き換える文を選択するための指示に従う能力を評価する。
モデルサイズが増加するにつれてタスクの精度が低下する,極めて少ないプロンプト環境下での逆スケーリング傾向を示す。
サンプル数の増加は、より小さなモデルよりも大きなモデルに不均等に利益をもたらす傾向があることを示す。
関連論文リスト
- Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Show Me How It's Done: The Role of Explanations in Fine-Tuning Language
Models [0.45060992929802207]
言語モデルの性能を向上させるために,説明付き微調整を用いることによる重要な利点を示す。
私たちは、6000万のパラメータしか持たない小さな言語モデルでさえ、このアプローチからかなり恩恵を受けていることに気付きました。
論文 参考訳(メタデータ) (2024-02-12T10:11:50Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Rarely a problem? Language models exhibit inverse scaling in their
predictions following few-type quantifiers [0.6091702876917281]
言語モデルにおいて特に課題となる「おもちゃのような2人の子供」のような「2つの」型の量化器に焦点をあてる。
人間の2つの神経言語実験から、異なる大きさの22個の自己回帰トランスフォーマーモデルまで、960の英語文刺激を提示する。
論文 参考訳(メタデータ) (2022-12-16T20:01:22Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - Memorization Without Overfitting: Analyzing the Training Dynamics of
Large Language Models [64.22311189896888]
因果的および仮面的言語モデリング、モデルサイズ、およびトレーニングプロセス全体における正確な記憶について検討する。
驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。
論文 参考訳(メタデータ) (2022-05-22T07:43:50Z) - Internet-augmented language models through few-shot prompting for
open-domain question answering [6.573232954655063]
私たちは、大規模な言語モデルによって提供されるユニークないくつかのショット機能を活用して、いくつかの課題を克服しています。
Google Searchを使って、ウェブから返された情報に対して言語モデルを条件付けるために、数発のプロンプトを使用します。
ウェブ上で条件付けされた言語モデルは、オープンドメイン質問応答において、類似またはそれ以上のモデルサイズを持つクローズドブックモデルの性能を上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-10T02:24:14Z) - Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。
小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:53:14Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Deep or Simple Models for Semantic Tagging? It Depends on your Data
[Experiments] [26.48209520599515]
その結果,データセットのサイズ,ラベル比,ラベルのクリーン化がセマンティックタグ付けの品質に大きく影響していることが判明した。
単純なモデルは、大きなデータセット上のディープモデルと同じようなタグ付け品質を実現するが、単純なモデルのランタイムはずっと短い。
論文 参考訳(メタデータ) (2020-07-11T00:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。