論文の概要: LingGym: How Far Are LLMs from Thinking Like Field Linguists?
- arxiv url: http://arxiv.org/abs/2511.00343v1
- Date: Sat, 01 Nov 2025 00:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.728866
- Title: LingGym: How Far Are LLMs from Thinking Like Field Linguists?
- Title(参考訳): LingGym: LLMはフィールド言語学者のような思考からどのくらい遠いのか?
- Authors: Changbing Yang, Franklin Ma, Freda Shi, Jian Zhu,
- Abstract要約: 本稿ではLingGymについて紹介する。LingGymはメタ言語推論のためのLLMの能力を評価する新しいベンチマークである。
制御された評価タスク:Word-Gloss Inferenceでは、モデルが文脈から欠落した単語と光沢を推測しなければならない。
その結果,構造化言語的手がかりを取り入れることで,全てのモデルにおける推論性能が一貫した改善が得られた。
- 参考スコア(独自算出の注目度): 20.482844306874743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces LingGym, a new benchmark that evaluates LLMs' capacity for meta-linguistic reasoning using Interlinear Glossed Text (IGT) and grammatical descriptions extracted from 18 typologically diverse reference grammars. Unlike previous work that focuses on specific downstream tasks, we assess whether LLMs can generalize linguistic inference across low-resource languages and structures not seen during training. We present a controlled evaluation task: Word-Gloss Inference, in which the model must infer a missing word and gloss from context using varying levels of linguistic information (e.g., glosses, grammatical explanations, translations). Our results show that incorporating structured linguistic cues leads to consistent improvements in reasoning performance across all models. This work highlights both the promise and current limitations of using LLMs for typologically informed linguistic analysis and low-resource language documentation.
- Abstract(参考訳): 本稿では,LingGymについて紹介する。LingGymは,Interlinear Glossed Text (IGT) を用いたメタ言語推論におけるLLMの能力と,18の類型的多様参照文法から抽出した文法的記述について述べる。
特定の下流タスクに焦点を当てた従来の研究とは異なり、LLMが低リソース言語や訓練中に見られない構造に対して言語推論を一般化できるかどうかを評価する。
制御された評価課題として, 言語情報(例えば, グロス, 文法的説明, 翻訳)を用いて, モデルが失語と失語を文脈から推論する必要がある。
その結果,構造化言語的手がかりを取り入れることで,全てのモデルにおける推論性能が一貫した改善が得られた。
本研究は,LLMを用いた言語解析と低リソース言語文書作成における将来性と現状の限界を両立させるものである。
関連論文リスト
- CLEAR: A Comprehensive Linguistic Evaluation of Argument Rewriting by Large Language Models [2.872898284494118]
我々は、議論的テキストとその改善、Argument Improvement(ArgImp)というタスクに焦点を当てる。
本稿では4つの言語レベルにマッピングされた57のメトリクスからなる評価パイプラインであるCLEARについて述べる。
これらのモデルでは,文章の短縮と平均語長の増大,文章の融合によりArgImpが実現されている。
論文 参考訳(メタデータ) (2025-09-18T14:53:41Z) - Self-Correction Makes LLMs Better Parsers [19.20952673157709]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著な成功を収めている。
近年の研究では、深い言語理解に不可欠な基本的なNLPタスクを実行する上で、依然として課題に直面していることが示唆されている。
本稿では,既存の木バンクからの文法規則を活かした自己補正手法を提案する。
論文 参考訳(メタデータ) (2025-04-19T03:50:59Z) - Linguistic Blind Spots of Large Language Models [14.755831733659699]
言語アノテーションタスクにおける最近の大規模言語モデル(LLM)の性能について検討する。
近年の LLM は言語クエリに対処する上で有効性が限られており,言語学的に複雑な入力に苦しむことが多い。
この結果から,LLMの設計・開発における今後の進歩を示唆する知見が得られた。
論文 参考訳(メタデータ) (2025-03-25T01:47:13Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。
LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。
我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文 参考訳(メタデータ) (2024-04-03T04:53:14Z) - Beware of Words: Evaluating the Lexical Diversity of Conversational LLMs using ChatGPT as Case Study [3.0059120458540383]
対話型大言語モデル(LLM)が生成するテキストの語彙的リッチ性の評価と,それがモデルパラメータにどのように依存するかを検討する。
その結果、語彙豊かさがChatGPTのバージョンと、そのパラメータのいくつか、例えば存在ペナルティやモデルに割り当てられた役割にどのように依存しているかが示される。
論文 参考訳(メタデータ) (2024-02-11T13:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。