論文の概要: Impact of Pretraining Term Frequencies on Few-Shot Reasoning
- arxiv url: http://arxiv.org/abs/2202.07206v1
- Date: Tue, 15 Feb 2022 05:43:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 14:18:44.209051
- Title: Impact of Pretraining Term Frequencies on Few-Shot Reasoning
- Title(参考訳): プレトレーニング期間がFew-Shot Reasoningに及ぼす影響
- Authors: Yasaman Razeghi, Robert L. Logan IV, Matt Gardner, Sameer Singh
- Abstract要約: 事前学習された言語モデルが、事前学習データにおいてあまり頻度の低い用語でどの程度理にかなっているかを検討する。
我々は,様々な数値推論タスクにおいて,GPTに基づく言語モデルに対して,この相関関係の強さを計測する。
LMは数秒の数値推論タスクにおいて高い性能を示すが,本研究の結果は,事前学習データを超えるモデルが実際にどれだけ一般化されるのかという疑問を提起する。
- 参考スコア(独自算出の注目度): 51.990349528930125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained Language Models (LMs) have demonstrated ability to perform
numerical reasoning by extrapolating from a few examples in few-shot settings.
However, the extent to which this extrapolation relies on robust reasoning is
unclear. In this paper, we investigate how well these models reason with terms
that are less frequent in the pretraining data. In particular, we examine the
correlations between the model performance on test instances and the frequency
of terms from those instances in the pretraining data. We measure the strength
of this correlation for a number of GPT-based language models (pretrained on
the Pile dataset) on various numerical deduction tasks (e.g., arithmetic and
unit conversion). Our results consistently demonstrate that models are more
accurate on instances whose terms are more prevalent, in some cases above
$70\%$ (absolute) more accurate on the top 10\% frequent terms in comparison to
the bottom 10\%. Overall, although LMs exhibit strong performance at few-shot
numerical reasoning tasks, our results raise the question of how much models
actually generalize beyond pretraining data, and we encourage researchers to
take the pretraining data into account when interpreting evaluation results.
- Abstract(参考訳): 事前訓練された言語モデル(LM)は、いくつかの例を数ショット設定で外挿することで数値推論を行う能力を示した。
しかし、この外挿が頑健な推論に依存する範囲は不明確である。
本稿では,これらのモデルが事前学習データにおいていかに頻度が低いかについて検討する。
特に,テストインスタンスにおけるモデル性能と,事前学習データ中のこれらのインスタンスからの語句の頻度との相関について検討する。
本稿では,様々な数値推論タスク(算術や単位変換など)において,GPTに基づく言語モデル(Pileデータセットで事前学習)に対して,この相関関係の強さを計測する。
以上の結果から,最上位10~%の頻繁な単語では,下位10~%よりも70~%以上(絶対的)のインスタンスの方が,より普及度が高いインスタンスではモデルの方が正確であることを一貫して証明した。
総じて,lmsは数点数推論タスクにおいて強力な性能を示すが,本研究では,事前学習データ以上のモデルが実際にどの程度一般化されているかという疑問を提起し,評価結果の解釈に際し,事前学習データを考慮に入れることを研究者に促す。
関連論文リスト
- No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Data Similarity is Not Enough to Explain Language Model Performance [6.364065652816667]
類似度は言語モデルの性能と相関する。
類似度指標は正確性や相互に相関しない。
これは、事前学習データと下流タスクの関係が、しばしば想定されるよりも複雑であることを示している。
論文 参考訳(メタデータ) (2023-11-15T14:48:08Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - An Empirical Study on Robustness to Spurious Correlations using
Pre-trained Language Models [13.891423075375512]
近年の研究では、BERTのような事前学習された言語モデルが、データセットの素早い相関性を改善することが示されている。
彼らの成功の鍵は、突発的な相関が保たない少数の反例から一般化することである。
以上の結果から,突発的な相関を克服する上で,データの多様性の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2020-07-14T02:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。