論文の概要: Large GPT-like Models are Bad Babies: A Closer Look at the Relationship
between Linguistic Competence and Psycholinguistic Measures
- arxiv url: http://arxiv.org/abs/2311.04547v1
- Date: Wed, 8 Nov 2023 09:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 16:26:03.374868
- Title: Large GPT-like Models are Bad Babies: A Closer Look at the Relationship
between Linguistic Competence and Psycholinguistic Measures
- Title(参考訳): 大型GPT様モデルは悪い乳児である:言語能力と心理言語学的尺度との関係について
- Authors: Julius Steuer, Marius Mosbach, Dietrich Klakow
- Abstract要約: 我々は、BabyLM事前学習コーパスの厳密なバージョンに基づいて、異なるサイズのGPTライクな言語モデルを訓練する。
これら3つの課題に対して,各課題におけるモデルの幅と深さの相違により,LMサイズと性能の正の相関が認められた。
このことは、モデリング処理の努力と言語能力は、発達可能なコーパス上でのGPTライクなLMのトレーニングとは異なるアプローチを必要とすることを示唆している。
- 参考スコア(独自算出の注目度): 25.210837736795565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on the cognitive plausibility of language models (LMs) has so far
mostly concentrated on modelling psycholinguistic response variables such as
reading times, gaze durations and N400/P600 EEG signals, while mostly leaving
out the dimension of what Mahowald et al. (2023) described as formal and
functional linguistic competence, and developmental plausibility. We address
this gap by training a series of GPT-like language models of different sizes on
the strict version of the BabyLM pretraining corpus, evaluating on the
challenge tasks (BLiMP, GLUE, MSGS) and an additional reading time prediction
task. We find a positive correlation between LM size and performance on all
three challenge tasks, with different preferences for model width and depth in
each of the tasks. In contrast, a negative correlation was found between LM
size and reading time fit of linear mixed-effects models using LM surprisal as
a predictor, with the second-smallest LM achieving the largest log-likelihood
reduction over a baseline model without surprisal. This suggests that modelling
processing effort and linguistic competence may require an approach different
from training GPT-like LMs on a developmentally plausible corpus.
- Abstract(参考訳): 言語モデル(lms)の認知的可能性の研究は、読解時間、視線継続時間、n400/p600脳波信号などの心理言語学的応答変数のモデル化に集中しているが、mahowald et al. (2023) が形式的、機能的言語能力、発達的可能性の次元は除外されている。
このギャップに対処するために,BabyLMプレトレーニングコーパスの厳密なバージョン上で異なるサイズのGPT様言語モデルをトレーニングし,課題タスク(BLiMP,GLUE,MSGS)と追加の読み出し時間予測タスクを評価する。
3つの課題すべてにおいてlmサイズと性能は正の相関関係にあり,各課題におけるモデル幅と深さの好みが異なる。
一方,lmsurprisalを予測器として用いた線形混合効果モデルでは,lmサイズと読み時間との負の相関がみられ,第2の小さいlmはサプリsalを使わずにベースラインモデルよりもログライク度が小さくなった。
このことは、モデリング処理の努力と言語能力は、発達可能なコーパス上でのGPTライクなLMのトレーニングとは異なるアプローチを必要とすることを示唆している。
関連論文リスト
- From Babbling to Fluency: Evaluating the Evolution of Language Models in Terms of Human Language Acquisition [6.617999710257379]
本稿では,LMの能力を評価するための3段階のフレームワークを提案する。
言語研究の手法を用いて, LMの生成能力を評価する。
論文 参考訳(メタデータ) (2024-10-17T06:31:49Z) - Scaling Laws for Multilingual Language Models [41.6318470003173]
多言語スケーリングの研究における主要な課題は、言語間移動による個々の言語性能の分析が困難であることである。
本稿では,各言語群に対するクロスエントロピー損失が,それぞれのサンプリング比でのみ決定されるという仮説を導入し,検証する。
性能とデータセットサイズ,モデルサイズ,サンプリング比率を関連づける,ゆるい関係を導出する。
論文 参考訳(メタデータ) (2024-10-15T20:29:38Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Evaluating Neural Language Models as Cognitive Models of Language
Acquisition [4.779196219827507]
我々は、ニューラルネットワークモデルの構文能力を評価するための最も顕著なベンチマークは、十分に厳密でないかもしれないと論じる。
小規模データモデリングによる子言語習得を訓練すると、LMは単純なベースラインモデルで容易にマッチングできる。
子どもの言語習得に関する実証的研究と、LMをよりよく結びつけるための提案をまとめて締めくくった。
論文 参考訳(メタデータ) (2023-10-31T00:16:17Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Evaluating the Capability of Large-scale Language Models on Chinese
Grammatical Error Correction Task [10.597024796304016]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な能力を示している。
本報告では,中国語の文法的誤り訂正タスクにおける大規模言語モデルの性能について検討する。
論文 参考訳(メタデータ) (2023-07-08T13:10:59Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。