論文の概要: Polishing Every Facet of the GEM: Testing Linguistic Competence of LLMs and Humans in Korean
- arxiv url: http://arxiv.org/abs/2506.01237v1
- Date: Mon, 02 Jun 2025 01:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.003891
- Title: Polishing Every Facet of the GEM: Testing Linguistic Competence of LLMs and Humans in Korean
- Title(参考訳): GEMのあらゆる面をポーリングする:韓国におけるLLMと人間の言語能力の検証
- Authors: SungHo Kim, Nayeon Kim, Taehee Jeon, SangKeun Lee,
- Abstract要約: KoGEMは韓国のLLMと人間の言語能力を評価するために設計された。
5つの主要なカテゴリと16のサブカテゴリを含む1.5kの多重選択QAペアで構成されている。
- 参考スコア(独自算出の注目度): 8.072947878765941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the $\underline{Ko}rean \underline{G}rammar \underline{E}valuation Bench\underline{M}ark (KoGEM)$, designed to assess the linguistic competence of LLMs and humans in Korean. KoGEM consists of 1.5k multiple-choice QA pairs covering five main categories and 16 subcategories. The zero-shot evaluation of 27 LLMs of various sizes and types reveals that while LLMs perform remarkably well on straightforward tasks requiring primarily definitional knowledge, they struggle with tasks that demand the integration of real-world experiential knowledge, such as phonological rules and pronunciation. Furthermore, our in-depth analysis suggests that incorporating such experiential knowledge could enhance the linguistic competence of LLMs. With KoGEM, we not only highlight the limitations of current LLMs in linguistic competence but also uncover hidden facets of LLMs in linguistic competence, paving the way for enhancing comprehensive language understanding. Our code and dataset are available at: https://github.com/SungHo3268/KoGEM.
- Abstract(参考訳): 我々は,LLMと韓国人の言語能力を評価するために,$\underline{Ko}rean \underline{G}rammar \underline{E}valuation Bench\underline{M}ark (KoGEM)$を紹介した。
KoGEMは5つの主要なカテゴリと16のサブカテゴリを含む1.5kの多重選択QAペアで構成されている。
様々な大きさの27のLLMのゼロショット評価では、LLMは定義的知識を必要とする簡単なタスクで驚くほどうまく機能するが、音韻的規則や発音のような実世界の経験的知識の統合を必要とするタスクと競合する。
さらに,このような経験的知識を取り入れることで,LLMの言語能力が向上する可能性が示唆された。
KoGEMでは、言語能力における現在のLLMの限界だけでなく、言語能力におけるLLMの隠蔽面も強調し、包括的言語理解を深める道を開いた。
私たちのコードとデータセットは、https://github.com/SungHo3268/KoGEM.comで公開されています。
関連論文リスト
- PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - LLMzSzŁ: a comprehensive LLM benchmark for Polish [1.147194267316659]
この記事では、ポーランド語に関するこの規模での最初の包括的なベンチマークについて紹介する。
これは、ポーランド中央試験委員会のアーカイブから抽出された学術試験と専門試験の両方を含む、ポーランドの国家試験の一貫性のあるコレクションに基づいている。
そのほか、約19万のクローズドエンドの質問で構成されている。
論文 参考訳(メタデータ) (2025-01-04T12:04:46Z) - Pragmatic Competence Evaluation of Large Language Models for the Korean Language [0.6757476692230009]
本研究では,Large Language Models (LLMs) が,特に韓国語における実践的視点から,文脈依存表現をいかによく理解しているかを評価する。
自動評価にはMultiple-Choice Questions(MCQ)と、専門家によるOEQ(Open-Ended Questions)の両方を用いる。
論文 参考訳(メタデータ) (2024-03-19T12:21:20Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。