論文の概要: Resource-sensitive but language-blind: Community size and not grammatical complexity better predicts the accuracy of Large Language Models in a novel Wug Test
- arxiv url: http://arxiv.org/abs/2510.12463v1
- Date: Tue, 14 Oct 2025 12:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.317712
- Title: Resource-sensitive but language-blind: Community size and not grammatical complexity better predicts the accuracy of Large Language Models in a novel Wug Test
- Title(参考訳): 資源に敏感な言語ブレンド:新しいバグテストにおける大規模言語モデルの精度をより正確に予測する
- Authors: Nikoleta Pantelidou, Evelina Leivada, Paolo Morosi,
- Abstract要約: 目的は、モデル精度が人間の能力に近似するかどうかを決定することである。
その結果, モデルが形態素過程を一般化し, 人間のような精度で未知の単語を認識できることが示唆された。
スペイン語や英語のようなより大きな話者コミュニティと強力なデジタル表現を持つ言語は、カタルーニャ語やギリシャ語のような低リソースの言語よりも高い精度を示した。
- 参考スコア(独自算出の注目度): 0.15293427903448023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The linguistic abilities of Large Language Models are a matter of ongoing debate. This study contributes to this discussion by investigating model performance in a morphological generalization task that involves novel words. Using a multilingual adaptation of the Wug Test, six models were tested across four partially unrelated languages (Catalan, English, Greek, and Spanish) and compared with human speakers. The aim is to determine whether model accuracy approximates human competence and whether it is shaped primarily by linguistic complexity or by the quantity of available training data. Consistent with previous research, the results show that the models are able to generalize morphological processes to unseen words with human-like accuracy. However, accuracy patterns align more closely with community size and data availability than with structural complexity, refining earlier claims in the literature. In particular, languages with larger speaker communities and stronger digital representation, such as Spanish and English, revealed higher accuracy than less-resourced ones like Catalan and Greek. Overall, our findings suggest that model behavior is mainly driven by the richness of linguistic resources rather than by sensitivity to grammatical complexity, reflecting a form of performance that resembles human linguistic competence only superficially.
- Abstract(参考訳): 大規模言語モデルの言語能力は、現在進行中の議論の問題である。
本研究は,新しい単語を含む形態素一般化タスクにおいて,モデル性能を検証することによって,この議論に寄与する。
ウグテストの多言語適応を用いて、6つのモデルが部分的に無関係な4つの言語(カタラン語、英語、ギリシャ語、スペイン語)でテストされ、人間の話者と比較された。
本研究の目的は,モデルの精度が人間の能力に近似するかどうか,言語的複雑さや利用可能なトレーニングデータの量によって主に形作られるかどうかを判断することである。
過去の研究では、モデルが形態的過程を一般化し、人間のような正確さで未知の単語を認識できることが示されている。
しかし、精度のパターンは、構造的な複雑さよりも、コミュニティのサイズやデータ可用性と密接に一致しており、文献の以前の主張を精査している。
特に、スペイン語や英語のようなより大きな話者コミュニティと強力なデジタル表現を持つ言語は、カタルーニャ語やギリシャ語のような少ないリソースの言語よりも高い精度を示した。
概して, モデル行動は, 文法的複雑性に対する感受性よりも, 言語資源の豊かさが主要因であり, 人間の言語能力に類似したパフォーマンスの形式を反映していることが示唆された。
関連論文リスト
- Do language models accommodate their users? A study of linguistic convergence [15.958711524171362]
モデルは会話のスタイルに強く収束し、しばしば人間のベースラインに対してかなり過度に適合する。
モデル設定間の収束の連続的な変化を観察し、事前訓練されたモデルよりも少ない精度で収束する命令調整および大規模モデルについて考察する。
論文 参考訳(メタデータ) (2025-08-05T09:55:40Z) - Evaluating Large Language Models on Multiword Expressions in Multilingual and Code-Switched Contexts [2.519319150166215]
本研究では,現在最先端の言語モデルが,潜在的に慣用的なマルチワード表現のあいまいさをどのように処理するかを評価する。
大きな言語モデルは、その強みにも拘わらず、ニュアンスド言語に苦戦している。
論文 参考訳(メタデータ) (2025-04-10T16:39:28Z) - The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - Language Model Behavior: A Comprehensive Survey [5.663056267168211]
本稿では,タスク固有の微調整前における英語モデル行動に関する最近の250以上の研究について論じる。
モデルが数十億のパラメータにスケールするにつれて、生成テキストの品質は劇的に向上するが、モデルはまだ、非現実的な応答、常識的エラー、暗記されたテキスト、社会的偏見の傾向にある。
論文 参考訳(メタデータ) (2023-03-20T23:54:26Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Cross-Linguistic Syntactic Evaluation of Word Prediction Models [25.39896327641704]
本稿では,ニューラルワード予測モデルの文法学習能力が言語によってどう異なるかを検討する。
CLAMSには、英語、フランス語、ドイツ語、ヘブライ語、ロシア語のサブバーブ協定の課題セットが含まれている。
CLAMSを用いてLSTM言語モデルと単言語および多言語BERTの評価を行う。
論文 参考訳(メタデータ) (2020-05-01T02:51:20Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z) - An Empirical Study of Factors Affecting Language-Independent Models [11.976665726887733]
言語に依存しないモデルは、モノリンガルデータを用いて訓練されたモデルに匹敵するか、さらに優れることを示す。
我々は,多くの異なる言語で言語に依存しないモデルを実験し,それらが類型的に類似した言語に適していることを示す。
論文 参考訳(メタデータ) (2019-12-30T22:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。