論文の概要: Making Sense of Korean Sentences: A Comprehensive Evaluation of LLMs through KoSEnd Dataset
- arxiv url: http://arxiv.org/abs/2507.03378v1
- Date: Fri, 04 Jul 2025 08:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.709879
- Title: Making Sense of Korean Sentences: A Comprehensive Evaluation of LLMs through KoSEnd Dataset
- Title(参考訳): 韓国文のセンス:KoSEndデータセットによるLLMの包括的評価
- Authors: Seunguk Yu, Kyeonghyun Kim, Jungmin Yun, Youngbin Kim,
- Abstract要約: この研究は、複雑な文終末で知られる韓国語に焦点を当てた。
韓国文終末データセットを導入し, 3000の文を含む15の文終末形式の自然性について注釈を付けた。
韓国語文終末の理解度を評価するため,11のLLMを評価し,パラメータ数と予測整合性に基づいて分析した。
- 参考スコア(独自算出の注目度): 6.097274206862952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although LLMs have made significant progress in various languages, there are still concerns about their effectiveness with low-resource agglutinative languages compared to languages such as English. In this study, we focused on Korean, a language known for its complex sentence endings, and evaluated LLMs on this challenging aspect. We introduce the Korean Sentence Endings (KoSEnd) dataset, which includes 3,000 sentences, each annotated for the naturalness of 15 sentence ending forms. These were collected from diverse sources to cover a range of contexts. We evaluated 11 LLMs to assess their understanding of Korean sentence endings, analyzing them based on parameter count and prediction consistency. Notably, we found that informing models about the possibility of missing sentence endings improved performance, highlighting the impact of explicitly considering certain linguistic features.
- Abstract(参考訳): LLMは様々な言語で大きな進歩を遂げてきたが、英語などの言語と比較して低リソースの凝集性言語での有効性が懸念されている。
本研究では,複雑な文終末で知られる韓国語に着目し,この難解な側面からLLMを評価した。
我々は韓国文終末データセット(KoSEnd)について紹介する。このデータセットには3,000の文が含まれており、それぞれが15の文終末形式の自然性のために注釈付けされている。
これらは多種多様な資料から収集され、様々な文脈をカバーした。
韓国語文終末の理解度を評価するため,11のLLMを評価し,パラメータ数と予測整合性に基づいて分析した。
特に,文末の欠落の可能性をモデルに示すことで,特定の言語的特徴を明示的に考慮することの影響が強調された。
関連論文リスト
- Language Mixing in Reasoning Language Models: Patterns, Impact, and Internal Causes [49.770097731093216]
RLM(Reasoning Language Model)は、チェーン・オブ・シント・プロセスを利用して構造化中間ステップを生成することで、複雑なタスクに優れる。
言語混合、すなわちプロンプト以外の言語からのトークンを含む推論ステップがアウトプットで観測され、性能に影響することが示されている。
本研究では, RLMにおける言語混合に関する最初の体系的研究を行い, そのパターン, 影響, 内部要因を15言語にわたって検討した。
論文 参考訳(メタデータ) (2025-05-20T18:26:53Z) - Regional Tiny Stories: Using Small Models to Compare Language Learning and Tokenizer Performance [1.1784026260358966]
我々はヒンディー語、マラティー語、ベンガル語に着目し、地域言語処理のためのSLMを評価し、言語的複雑さを理解する。
分析の結果,言語固有のトークンーザはインドの言語に対して汎用的なトークンーよりも優れていた。
これらの知見は、SLMの未保存言語への実践的応用と、我々のニューラルネットワーク開発に関する理論的理解の両方を前進させる。
論文 参考訳(メタデータ) (2025-04-07T10:33:14Z) - Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - Multilingual Relative Clause Attachment Ambiguity Resolution in Large Language Models [2.3749120526936465]
大型言語モデル (LLM) は相対節 (RC) のアタッチメントの曖昧さを解消する。
我々はLLMが言語の複雑さの中で人間的な解釈を達成できるかどうかを評価する。
我々は、英語、スペイン語、フランス語、ドイツ語、日本語、韓国語でモデルを評価する。
論文 参考訳(メタデータ) (2025-03-04T19:56:56Z) - Evaluating Multilingual Long-Context Models for Retrieval and Reasoning [1.3398445165628465]
5言語にわたる検索および推論タスクにおいて,いくつかの大規模言語モデル (LLM) を評価する。
最高のパフォーマンスモデルは英語で約96%の精度を達成し、ソマリでは約36%の精度を目標文で達成している。
以上の結果から,長いコンテキストを処理する場合のLLMが直面する課題が浮き彫りになった。
論文 参考訳(メタデータ) (2024-09-26T16:15:14Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。