Fugu-MT 論文翻訳(概要): Polishing Every Facet of the GEM: Testing Linguistic Competence of LLMs and Humans in Korean

論文の概要: Polishing Every Facet of the GEM: Testing Linguistic Competence of LLMs and Humans in Korean

arxiv url: http://arxiv.org/abs/2506.01237v1
Date: Mon, 02 Jun 2025 01:27:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:34.003891
Title: Polishing Every Facet of the GEM: Testing Linguistic Competence of LLMs and Humans in Korean
Title（参考訳）: GEMのあらゆる面をポーリングする:韓国におけるLLMと人間の言語能力の検証
Authors: SungHo Kim, Nayeon Kim, Taehee Jeon, SangKeun Lee,
Abstract要約: KoGEMは韓国のLLMと人間の言語能力を評価するために設計された。 5つの主要なカテゴリと16のサブカテゴリを含む1.5kの多重選択QAペアで構成されている。
参考スコア（独自算出の注目度）: 8.072947878765941
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce the $\underline{Ko}rean \underline{G}rammar \underline{E}valuation Bench\underline{M}ark (KoGEM)$, designed to assess the linguistic competence of LLMs and humans in Korean. KoGEM consists of 1.5k multiple-choice QA pairs covering five main categories and 16 subcategories. The zero-shot evaluation of 27 LLMs of various sizes and types reveals that while LLMs perform remarkably well on straightforward tasks requiring primarily definitional knowledge, they struggle with tasks that demand the integration of real-world experiential knowledge, such as phonological rules and pronunciation. Furthermore, our in-depth analysis suggests that incorporating such experiential knowledge could enhance the linguistic competence of LLMs. With KoGEM, we not only highlight the limitations of current LLMs in linguistic competence but also uncover hidden facets of LLMs in linguistic competence, paving the way for enhancing comprehensive language understanding. Our code and dataset are available at: https://github.com/SungHo3268/KoGEM.
Abstract（参考訳）: 我々は,LLMと韓国人の言語能力を評価するために,$\underline{Ko}rean \underline{G}rammar \underline{E}valuation Bench\underline{M}ark (KoGEM)$を紹介した。 KoGEMは5つの主要なカテゴリと16のサブカテゴリを含む1.5kの多重選択QAペアで構成されている。様々な大きさの27のLLMのゼロショット評価では、LLMは定義的知識を必要とする簡単なタスクで驚くほどうまく機能するが、音韻的規則や発音のような実世界の経験的知識の統合を必要とするタスクと競合する。さらに,このような経験的知識を取り入れることで,LLMの言語能力が向上する可能性が示唆された。 KoGEMでは、言語能力における現在のLLMの限界だけでなく、言語能力におけるLLMの隠蔽面も強調し、包括的言語理解を深める道を開いた。私たちのコードとデータセットは、https://github.com/SungHo3268/KoGEM.comで公開されています。

関連論文リスト

EXECUTE: A Multilingual Benchmark for LLM Token Understanding [54.70665106141121]
複数の言語にまたがるテストでは、他の言語の課題が英語のように常に文字レベルにあるとは限らないことが分かる。また、中国語、日本語、韓国語のサブ文字タスクについても検討し、LLMの文字成分に対する理解を評価する。
論文参考訳（メタデータ） (2025-05-23T11:56:48Z)
Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。その結果,2つの領域間に大きな性能差が認められた。
論文参考訳（メタデータ） (2025-05-22T12:27:02Z)
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳（メタデータ） (2025-04-25T15:39:04Z)
LLMzSzŁ: a comprehensive LLM benchmark for Polish [1.147194267316659]
この記事では、ポーランド語に関するこの規模での最初の包括的なベンチマークについて紹介する。これは、ポーランド中央試験委員会のアーカイブから抽出された学術試験と専門試験の両方を含む、ポーランドの国家試験の一貫性のあるコレクションに基づいている。そのほか、約19万のクローズドエンドの質問で構成されている。
論文参考訳（メタデータ） (2025-01-04T12:04:46Z)
Can Code-Switched Texts Activate a Knowledge Switch in LLMs? A Case Study on English-Korean Code-Switching [14.841981996951395]
近年の大規模言語モデル (LLM) は多言語能力を示すが, コーパスの訓練において英語が支配的であったため英語中心である。 Code-switching (CS) は、多言語話者が会話の中で言語を交互に交互に話す現象であり、微妙な文化的・言語的なニュアンスを伝えることができる。その結果,CSは英語のテキストと比較して,特に言語固有の領域において,LSM内の知識を忠実に活性化することができることがわかった。
論文参考訳（メタデータ） (2024-10-24T05:14:03Z)
Pragmatic Competence Evaluation of Large Language Models for the Korean Language [0.6757476692230009]
本研究では,Large Language Models (LLMs) が,特に韓国語における実践的視点から,文脈依存表現をいかによく理解しているかを評価する。自動評価にはMultiple-Choice Questions(MCQ)と、専門家によるOEQ(Open-Ended Questions)の両方を用いる。
論文参考訳（メタデータ） (2024-03-19T12:21:20Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions [49.97641297850361]
lingOLLMは、LLMが事前トレーニングでほとんど起こらない未知の言語を処理できるようにする、トレーニング不要のアプローチである。 GPT-4とMixtralの2つのモデル上にlingOLLMを実装し,その性能評価を行った。 GPT-4 の 0 から 10.5 BLEU への翻訳能力が 10 言語方向に向上することを示す。
論文参考訳（メタデータ） (2024-02-28T03:44:01Z)
OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文参考訳（メタデータ） (2024-02-21T04:42:41Z)
How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文参考訳（メタデータ） (2023-11-15T16:13:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。