論文の概要: Larger Probes Tell a Different Story: Extending Psycholinguistic
Datasets Via In-Context Learning
- arxiv url: http://arxiv.org/abs/2303.16445v3
- Date: Tue, 14 Nov 2023 17:24:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 19:16:31.024867
- Title: Larger Probes Tell a Different Story: Extending Psycholinguistic
Datasets Via In-Context Learning
- Title(参考訳): より大きなプローブが異なるストーリーを語る:文脈内学習による心理的データセットの拡張
- Authors: Namrata Shivagunde, Vladislav Lialin, and Anna Rumshisky
- Abstract要約: 我々は、精神言語学研究に触発された否定と役割逆転のための、より大規模なデータセットを導入する。
GPT3 を用いて既存の NEG-136 と ROLE-88 ベンチマークを劇的に拡張し,それぞれ 18 と 44 の文対から 750 にサイズを拡大した。
拡張データセット上で22のモデルを評価し、オリジナルのより小さなベンチマークと比較すると、モデル性能は20~57%低下した。
- 参考スコア(独自算出の注目度): 14.606961537327345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model probing is often used to test specific capabilities of models.
However, conclusions from such studies may be limited when the probing
benchmarks are small and lack statistical power. In this work, we introduce
new, larger datasets for negation (NEG-1500-SIMP) and role reversal (ROLE-1500)
inspired by psycholinguistic studies. We dramatically extend existing NEG-136
and ROLE-88 benchmarks using GPT3, increasing their size from 18 and 44
sentence pairs to 750 each. We also create another version of extended negation
dataset (NEG-1500-SIMP-TEMP), created using template-based generation. It
consists of 770 sentence pairs. We evaluate 22 models on the extended datasets,
seeing model performance dip 20-57% compared to the original smaller
benchmarks. We observe high levels of negation sensitivity in models like BERT
and ALBERT demonstrating that previous findings might have been skewed due to
smaller test sets. Finally, we observe that while GPT3 has generated all the
examples in ROLE-1500 is only able to solve 24.6% of them during probing. The
datasets and code are available on
$\href{https://github.com/text-machine-lab/extending_psycholinguistic_dataset}{Github}$.
- Abstract(参考訳): 言語モデル探索は、しばしばモデルの特定の機能をテストするために使用される。
しかし、そのような研究の結論は、調査ベンチマークが小さく統計力が欠如している場合に限定される可能性がある。
本稿では,ネゲーション(neg-1500-simp)と役割反転(role-1500)の新たな大規模データセットを提案する。
GPT3 を用いて既存の NEG-136 と ROLE-88 ベンチマークを劇的に拡張し,それぞれ 18 と 44 の文対から 750 にサイズを拡大した。
また、テンプレートベースの生成を用いて作成した拡張否定データセット(NEG-1500-SIMP-TEMP)の別のバージョンも作成する。
770対の文からなる。
拡張したデータセット上で22モデルを評価し,モデル性能が20~57%低下した。
BERT や ALBERT のようなモデルでは,より小さなテストセットにより,以前の結果が歪んだ可能性があることを示すため,高いレベルの否定感度が観察された。
最後に、GPT3はROLE-1500の全ての例を生成しているが、探索中に24.6%しか解けない。
データセットとコードは$\href{https://github.com/text-machine-lab/extending_psycholinguistic_dataset}{Github}$で入手できる。
関連論文リスト
- Zephyr: Direct Distillation of LM Alignment [59.03530095974505]
ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。
従来の研究では、より大規模なモデルに教師付き微調整(dSFT)を適用することにより、タスクの精度が大幅に向上することが示されている。
蒸留直接選好最適化(dDPO)を用いて,意図のアライメントを大幅に改善したチャットモデルを学習する。
論文 参考訳(メタデータ) (2023-10-25T19:25:16Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Do CoNLL-2003 Named Entity Taggers Still Work Well in 2023? [10.789928720739734]
我々はCoNLL-2003で訓練された20以上のモデルの一般化を評価する。
驚くべきことに、RoBERTaやT5といった事前訓練されたトランスフォーマーのパフォーマンス劣化の証拠は見つからない。
分析の結果,ほとんどの劣化は,事前学習コーパスと下流テストセットの時間的ミスマッチによるものであることが示唆された。
論文 参考訳(メタデータ) (2022-12-19T18:59:56Z) - How to train your draGAN: A task oriented solution to imbalanced
classification [15.893327571516016]
本稿では,新しいアーキテクチャであるdraGANを用いた,ユニークでパフォーマンスを重視したデータ生成戦略を提案する。
サンプルは、実際のデータと類似性ではなく、分類モデルの性能を最適化する目的で生成される。
経験的に、draGANの優位性を示すと同時に、いくつかの欠点も強調する。
論文 参考訳(メタデータ) (2022-11-18T07:37:34Z) - Deconstructing Distributions: A Pointwise Framework of Learning [15.517383696434162]
テスト分布におけるモデルの平均性能と、この個々の点におけるポイントワイズ性能の関係について調べる。
プロファイルは、モデルとデータの構造 -- 分布の内外 -- に新しい洞察を与えることができる。
論文 参考訳(メタデータ) (2022-02-20T23:25:28Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - The effects of regularisation on RNN models for time series forecasting:
Covid-19 as an example [2.5397218862229254]
本稿では,他のニューラルネットワークよりもフレキシブルなモデルを提案する。
小型データのパフォーマンスを改善するため,6つの正規化方法がテストされた。
わずか28日間のデータで訓練されたGRUモデルにDropoutを適用することでRMSEは23%減少した。
論文 参考訳(メタデータ) (2021-05-09T10:50:57Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。