論文の概要: Evaluating Metalinguistic Knowledge in Large Language Models across the World's Languages
- arxiv url: http://arxiv.org/abs/2602.02182v1
- Date: Mon, 02 Feb 2026 14:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.227959
- Title: Evaluating Metalinguistic Knowledge in Large Language Models across the World's Languages
- Title(参考訳): 世界の言語にまたがる大規模言語モデルにおけるメタ言語的知識の評価
- Authors: Tjaša Arčon, Matej Klemen, Marko Robnik-Šikonja, Kaja Dobrovoljc,
- Abstract要約: 大規模言語モデル(LLM)は日常的に言語使用タスクに基づいて評価されるが、言語構造に関する知識はいまだに理解されていない。
精度とマクロF1とマジョリティクラス,チャンスベースラインを併用して,言語領域や言語関連因子による全体的なパフォーマンスを分析し,その変動について検討する。
GPT-4oは最適だが適度な精度(0.367)であり,オープンソースモデルは遅れている。
- 参考スコア(独自算出の注目度): 0.5949779668853555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are routinely evaluated on language use tasks, yet their knowledge of linguistic structure remains poorly understood. Existing linguistic benchmarks typically focus on narrow phenomena, emphasize high-resource languages, and rarely evaluate metalinguistic knowledge-explicit reasoning about language structure rather than language use. Using accuracy and macro F1, together with majority-class and chance baselines, we analyse overall performance and examine variation by linguistic domains and language-related factors. Our results show that metalinguistic knowledge in current LLMs is limited: GPT-4o performs best but achieves only moderate accuracy (0.367), while open-source models lag behind. All models perform above chance but fail to outperform the majority-class baseline, suggesting they capture cross-linguistic patterns but lack fine-grained grammatical distinctions. Performance varies across linguistic domains, with lexical features showing the highest accuracy and phonological features among the lowest, partially reflecting differences in online visibility. At the language level, accuracy shows a strong association with digital language status: languages with higher digital presence and resource availability are evaluated more accurately, while low-resource languages show substantially lower performance. Analyses of predictive factors confirm that resource-related indicators (Wikipedia size, corpus availability) are more informative predictors of accuracy than geographical, genealogical, or sociolinguistic factors. Together, these results suggest that LLMs' metalinguistic knowledge is fragmented and shaped by data availability rather than generalizable grammatical competence across the world's languages. We release our benchmark as an open-source dataset to support systematic evaluation and encourage greater global linguistic diversity in future LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は日常的に言語使用タスクに基づいて評価されるが、言語構造に関する知識はいまだに理解されていない。
既存の言語ベンチマークは、典型的には狭い現象に焦点を当て、高リソース言語を強調し、言語の使用よりも言語構造に関するメタ言語的な知識-明示的推論を評価することは滅多にない。
精度とマクロF1とマジョリティクラス,チャンスベースラインを併用して,言語領域や言語関連因子による全体的なパフォーマンスを分析し,その変動について検討する。
GPT-4oは最適だが適度な精度しか達成せず(0.367)、オープンソースモデルは遅れている。
すべてのモデルが偶然以上の性能を発揮するが、多数クラスのベースラインを上回り、言語横断的なパターンを捉えるが、粒度の細かい文法的な区別が欠けていることを示唆している。
パフォーマンスは言語領域によって異なり、語彙的特徴は最も正確で、最も低い音韻学的特徴を示し、部分的にはオンラインの可視性の違いを反映している。
言語レベルでは、高いデジタルプレゼンスとリソース可用性を持つ言語はより正確に評価され、低リソース言語は大幅にパフォーマンスが低下する。
予測因子の分析により、資源関連指標(ウィキペディアのサイズ、コーパスの可利用性)が地理的、系譜学的、社会言語学的要因よりも正確であることが示された。
これらの結果は、LLMのメタ言語的知識は、世界中の言語にまたがる一般化可能な文法能力ではなく、データ可用性によって断片化され、形作られることを示唆している。
このベンチマークをオープンソースデータセットとしてリリースし、体系的な評価をサポートし、将来のLLMにおけるグローバルな言語多様性を促進する。
関連論文リスト
- Benchmarking Concept-Spilling Across Languages in LLMs [7.577675422356702]
大規模言語モデル(LLM)は言語間の優れた能力を示すが、他の言語からの表現に対する体系的なバイアスを示すことが多い。
本稿では,言語間の多文語をモデルがどう扱うかを測定することで,多言語意味的ロバスト性を評価するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-18T19:28:26Z) - Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning [39.03934159726098]
M2Aは,マルチスケール多言語アライメントと,機械翻訳された質問に対する言語一貫性報酬を組み合わせた新しい手法である。
地理に基づく多言語事実推論ベンチマークであるGeoFact-Xと5言語での推論トレースを紹介する。
以上の結果から,M2Aは数学的および事実的推論タスクにおいて,多言語推論の忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-07-07T19:04:36Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。