論文の概要: Heterogeneity in Formal Linguistic Competence of Language Models: Is Data the Real Bottleneck?
- arxiv url: http://arxiv.org/abs/2604.17930v1
- Date: Mon, 20 Apr 2026 08:11:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.75785
- Title: Heterogeneity in Formal Linguistic Competence of Language Models: Is Data the Real Bottleneck?
- Title(参考訳): 言語モデルの形式的言語的コンピテンスにおける不均一性:データは本当のボットネックか?
- Authors: H S V N S Kowndinya Renduchintala, Sumit Bhatia,
- Abstract要約: 大きな言語モデル (LLMs) は、形式的な言語能力において不明瞭な相違を示す。
ウェブスケールコーパスにおいて,これらの失敗が固有のアーキテクチャ上の制約に起因するのか,あるいは特定の文法構造が不足しているのかを考察する。
我々は,ファインウェブコーパスの100万個のランダムサンプルを用いた簡易GPT-2 Small (124M) モデルを事前訓練し,特定の言語現象をターゲットとした最小限の合成データを注入することによって介入する。
- 参考スコア(独自算出の注目度): 11.243181562664804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit a puzzling disparity in their formal linguistic competence: while they learn some linguistic phenomena with near-perfect mastery, they often perform below chance on others, even after training on trillions of tokens. In this work, we investigate whether these failures stem from inherent architectural limitations or simply the scarcity of these specific grammatical constructions in web-scale corpora. We pre-train simple GPT-2 Small (124M) models on a 100M-token random sample of the FineWeb corpus and intervene by injecting a minimal amount (1%) of synthetic data targeting specific linguistic phenomena. We find that this targeted intervention substantially improves model performance in 8 out of the 9 worst-performing BLiMP paradigms - notably the accuracy on a specific paradigm, only_npi_scope, surges from 20.9% to 69.4%. Furthermore, we observe that these interventions generally preserve or slightly improve aggregate performance. However, while we also identify a resistant phenomenon, principle_A_c_command, whose performance remains below chance even after our data augmentation, our findings do serve as an optimistic existence proof that even small language models can substantially improve on those linguistic phenomena on which models typically perform poorly, provided the pre-training data contains sufficient exposure to them. This suggests that efforts towards human-scale language modeling may benefit greatly by focusing on data composition. The code to reproduce our results is open-sourced at https://github.com/kowndinya-renduchintala/heterogeneity-in-formal-linguistic-competence.
- Abstract(参考訳): 大きな言語モデル(LLM)は、形式的な言語能力において不明瞭な相違を示す:彼らはほぼ完全な熟達によっていくつかの言語現象を学習する一方で、数兆のトークンを訓練した後でも、他の言語モデルよりも低い確率で実行されることがしばしばある。
本研究は,これらの失敗が固有のアーキテクチャ上の制約に起因するのか,それともWebスケールコーパスにおける特定の文法構造が不足しているのかを考察する。
我々は,ファインウェブコーパスの100万個のランダムサンプルを用いた簡易GPT-2 Small (124M) モデルを事前訓練し,特定の言語現象をターゲットとした最小 (1%) の合成データを注入することによって介入する。
9つの最悪のBLiMPパラダイムのうち、特に特定のパラダイムである only_npi_scope の精度は 20.9% から 69.4% に上昇する。
さらに,これらの介入は一般に,集計性能をわずかに向上させるか,維持する。
しかし,本研究は,データ拡張後も性能が低い耐障害現象であるprincipal_A_c_commandも同定するが,事前学習データに十分な露出がある場合,小さい言語モデルであっても,モデルが正常に機能する言語現象を著しく改善できるという楽観的な存在証明として機能する。
このことは、人間のスケール言語モデリングへの取り組みが、データ構成に焦点を合わせることで大きな利益をもたらすことを示唆している。
結果の再現コードはhttps://github.com/kowndinya-renduchintala/heterogeneity-in-formal-linguistic-competenceで公開されている。
関連論文リスト
- Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。
本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文 参考訳(メタデータ) (2025-02-25T16:44:10Z) - Towards Typologically Aware Rescoring to Mitigate Unfaithfulness in Lower-Resource Languages [9.426642998924724]
多言語大言語モデルは、資源制約言語で非忠実な出力を生成する。
このような設定における不誠実さを軽減するため、我々は計算学的に軽量な補助モデルを用いて、より大きなアーキテクチャの出力を再評価する。
我々は,700MB未満のデータに対して,スクラッチから事前訓練した単言語4層BERTモデルにより,忠実な要約を88.33%の平均精度で識別可能であることを示した。
論文 参考訳(メタデータ) (2025-02-24T21:22:19Z) - Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - Evaluating Large Language Models Using Contrast Sets: An Experimental Approach [0.0]
本研究では,スタンフォード自然言語推論データセットのコントラストセットを生成する革新的な手法を提案する。
我々の戦略は、動詞、副詞、形容詞をその同義語と自動置換して、文の本来の意味を保存することである。
本手法は,モデルの性能が真の言語理解に基づくのか,それとも単にパターン認識に基づくのかを評価することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T02:03:28Z) - Dissecting vocabulary biases datasets through statistical testing and
automated data augmentation for artifact mitigation in Natural Language
Inference [3.154631846975021]
我々は、データセットのアーティファクトを調査し、これらの問題に対処するための戦略を開発することに重点を置いている。
文字レベルから単語レベルにまたがる複数の自動データ拡張戦略を提案する。
実験により,提案手法はモデル精度を効果的に向上し,バイアスを最大0.66%,バイアスを1.14%低減することを示した。
論文 参考訳(メタデータ) (2023-12-14T08:46:26Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。