論文の概要: How do we get there? Evaluating transformer neural networks as cognitive
models for English past tense inflection
- arxiv url: http://arxiv.org/abs/2210.09167v1
- Date: Mon, 17 Oct 2022 15:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 18:43:44.381272
- Title: How do we get there? Evaluating transformer neural networks as cognitive
models for English past tense inflection
- Title(参考訳): どうやってそこに着くの?
英語過去時制インフレクションの認知モデルとしてのトランスフォーマーニューラルネットワークの評価
- Authors: Xiaomeng Ma and Lingyu Gao
- Abstract要約: 私たちは、このタスクの振る舞いを調べるために、異なる設定のトランスフォーマーモデルセットをトレーニングします。
モデルの性能はタイプ周波数と比に大きく影響されるが、トークン周波数と比には影響しない。
変圧器モデルは動詞の規則性の抽象的なカテゴリについてある程度の学習レベルを示すが、その性能は人間のデータによく適合しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is an ongoing debate on whether neural networks can grasp the
quasi-regularities in languages like humans. In a typical quasi-regularity
task, English past tense inflections, the neural network model has long been
criticized that it learns only to generalize the most frequent pattern, but not
the regular pattern, thus can not learn the abstract categories of regular and
irregular and is dissimilar to human performance. In this work, we train a set
of transformer models with different settings to examine their behavior on this
task. The models achieved high accuracy on unseen regular verbs and some
accuracy on unseen irregular verbs. The models' performance on the regulars is
heavily affected by type frequency and ratio but not token frequency and ratio,
and vice versa for the irregulars. The different behaviors on the regulars and
irregulars suggest that the models have some degree of symbolic learning on the
regularity of the verbs. In addition, the models are weakly correlated with
human behavior on nonce verbs. Although the transformer model exhibits some
level of learning on the abstract category of verb regularity, its performance
does not fit human data well, suggesting that it might not be a good cognitive
model.
- Abstract(参考訳): ニューラルネットワークが人間のような言語の準規則性を把握できるかどうか、議論が続いている。
典型的な準正則性タスクである英語の過去時制インフレクションにおいて、ニューラルネットワークモデルは、最も頻繁なパターンを一般化するためにのみ学習し、正規パターンではなく、正規パターンと不規則パターンの抽象的なカテゴリを学ぶことができず、人間のパフォーマンスと異なることを長年批判されてきた。
本研究では,異なる設定の変圧器モデルのセットをトレーニングし,その動作について検討する。
モデルでは, 正規動詞の認識精度が向上し, 不規則動詞の精度も向上した。
レギュラーモデルの性能はタイプ周波数と比に大きく影響されるが、トークンの頻度と比率には影響せず、逆もまた不規則である。
正規化と不規則化の異なる振る舞いは、モデルが動詞の規則性についてある程度の記号的学習を持っていることを示唆している。
さらに、モデルは名詞動詞の人間の行動と弱い相関関係にある。
トランスフォーマーモデルは動詞の規則性の抽象的なカテゴリーについてある程度の学習レベルを示すが、その性能は人間のデータにうまく適合せず、良い認知モデルではない可能性がある。
関連論文リスト
- Longer Fixations, More Computation: Gaze-Guided Recurrent Neural
Networks [12.57650361978445]
人間はさまざまなペースでテキストを読み、機械学習モデルはそれぞれのトークンを同じように扱う。
本稿では,この直感を固定誘導並列RNNやレイヤを用いた新しいモデルに変換する。
興味深いことに、ニューラルネットワークによって予測される固定期間は、人間の固定と多少似ている。
論文 参考訳(メタデータ) (2023-10-31T21:32:11Z) - MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties
in Generative Language Models [42.758124524703895]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - What does self-attention learn from Masked Language Modelling? [54.6265485082737]
自己注意はマスキング言語モデリング(MLM)によって訓練される
単語の位置と埋め込みの処理を分離すると、単一の自己注意層が一般化されたポッツモデルの条件を学習することを示す。
また、このニューラルネットワークのトレーニングは、いわゆる擬似様相法によって逆ポッツ問題を解くのと全く同じであることを示す。
論文 参考訳(メタデータ) (2023-04-14T16:32:56Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Rarely a problem? Language models exhibit inverse scaling in their
predictions following few-type quantifiers [0.6091702876917281]
言語モデルにおいて特に課題となる「おもちゃのような2人の子供」のような「2つの」型の量化器に焦点をあてる。
人間の2つの神経言語実験から、異なる大きさの22個の自己回帰トランスフォーマーモデルまで、960の英語文刺激を提示する。
論文 参考訳(メタデータ) (2022-12-16T20:01:22Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Falling Through the Gaps: Neural Architectures as Models of
Morphological Rule Learning [0.0]
形態素規則学習のモデルとしてトランスフォーマーを評価した。
英語、ドイツ語、ロシア語のRecurrent Neural Networks(RNN)と比較します。
論文 参考訳(メタデータ) (2021-05-08T14:48:29Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Inflecting when there's no majority: Limitations of encoder-decoder
neural networks as cognitive models for German plurals [27.002788405625484]
人工ニューラルネットワークは、屈折形態を表すことを学習し、人間の話者のように新しい言葉に一般化できるか?
EDモデルでは利用できない情報ソースを避けるために,ドイツ語話者(新規名詞の複数形式の生成と評価)から新しいデータセットを収集する。
現代のニューラルモデルは依然としてマイノリティ階級の一般化に苦戦する可能性があると結論付けている。
論文 参考訳(メタデータ) (2020-05-18T15:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。