論文の概要: Exploring the Capability Boundaries of LLMs in Mastering of Chinese Chouxiang Language
- arxiv url: http://arxiv.org/abs/2604.15841v2
- Date: Mon, 20 Apr 2026 08:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 13:51:31.200071
- Title: Exploring the Capability Boundaries of LLMs in Mastering of Chinese Chouxiang Language
- Title(参考訳): 中国語Chouxiang言語習得におけるLLMの能力境界の探索
- Authors: Dianqing Lin, Tian Lan, Jiali Zhu, Jiang Li, Wei Chen, Xu Liu, Aruukhan, Xiangdong Su, Hongxu Hou, Guanglai Gao,
- Abstract要約: 我々は,Chouxiang言語を含むNLPタスクにおいて,大規模言語モデル(LLM)の能力を評価するために設計された,特殊なベンチマークであるMマウスを紹介する。
実験の結果,現状のSOTA (State-of-the-art) LLMは複数のタスクに対して明確な制限を示し,文脈的意味理解を伴うタスクでは良好に機能することがわかった。
本研究は、NLPコミュニティにおける多文化統合と進化するインターネット言語のダイナミクスに関するさらなる研究を促進することを目的としている。
- 参考スコア(独自算出の注目度): 26.275675761892654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) have achieved remarkable success in general language tasks, their performance on Chouxiang Language, a representative subcultural language in the Chinese internet context, remains largely unexplored. In this paper, we introduce Mouse, a specialized benchmark designed to evaluate the capabilities of LLMs on NLP tasks involving Chouxiang Language across six tasks. Experimental results show that, current state-of-the-art (SOTA) LLMs exhibit clear limitations on multiple tasks, while performing well on tasks that involve contextual semantic understanding. In addition, we further discuss the reasons behind the generally low performance of SOTA LLMs on Chouxiang Language, examine whether the LLM-as-a-judge approach adopted for translation tasks aligns with human judgments and values, and analyze the key factors that influence Chouxiang translation. Our study aims to promote further research in the NLP community on multicultural integration and the dynamics of evolving internet languages. Our code and data are publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一般的な言語タスクにおいて顕著な成功を収めてきたが、中国のインターネットにおける代表的サブカルチャー言語であるChouxiang Languageのパフォーマンスは、まだ明らかにされていない。
そこで本稿では,Chouxiang Language を含む NLP タスクにおける LLM の機能を評価するための特殊なベンチマークである Mouse について紹介する。
実験結果から,現状のSOTA (State-of-the-art) LLMは複数のタスクに対して明確な制限を呈し,文脈意味理解を伴うタスクでは良好に機能することが示された。
さらに,チョクシアン語におけるSOTA LLMの低性能化の背景として,翻訳タスクにLLM-as-a-judgeアプローチがヒトの判断や値に合致するかどうかを検証し,チョクシアン語翻訳に影響を及ぼす重要な要因を分析した。
本研究は、NLPコミュニティにおける多文化統合と進化するインターネット言語のダイナミクスに関するさらなる研究を促進することを目的としている。
私たちのコードとデータは公開されています。
関連論文リスト
- Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese [52.98034458924209]
本研究では,大言語モデルが中国語の2つの変種に刺激された場合の差分性能について検討する。
実世界のシナリオを反映した2つのベンチマークタスクを設計する。
分析の結果、LLM応答のバイアスはタスクとプロンプト言語の両方に依存していることがわかった。
論文 参考訳(メタデータ) (2025-05-28T17:56:49Z) - PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [85.78821098963607]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - MiLiC-Eval: Benchmarking Multilingual LLMs for China's Minority Languages [30.66853618502553]
大規模言語モデル(LLM)は、高リソース言語では優れているが、低リソース言語(LRL)では苦戦している。
中国のマイノリティ言語向けに設計されたベンチマークであるMiLiC-Evalを紹介します。
論文 参考訳(メタデータ) (2025-03-03T03:56:03Z) - Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、ほとんどは不均衡なトレーニングコーパスのため英語中心である。
実世界のユーザクエリと非英語中心のLLMに評価を拡張し、多言語性能のより広範な評価を提供する。
論文 参考訳(メタデータ) (2024-03-15T12:47:39Z) - On the (In)Effectiveness of Large Language Models for Chinese Text
Correction [44.32102000125604]
大規模言語モデル(LLM)は、人工知能コミュニティ全体を驚かせた。
本研究は,中国語のNLP課題である中国語のテキスト訂正に焦点を当てた。
LLMは、現在、中国語のテキスト訂正において、素晴らしいパフォーマンスと不満足な動作の両方を持っていることを実証的に見出した。
論文 参考訳(メタデータ) (2023-07-18T06:48:52Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Don't Trust ChatGPT when Your Question is not in English: A Study of
Multilingual Abilities and Types of LLMs [16.770697902481107]
大規模言語モデル(LLM)は、例外的な自然言語理解能力を示している。
本論文では,多言語環境下でのLLMの性能格差を体系的に評価する方法を提案する。
その結果,GPTは多言語設定において高い翻訳的振る舞いを示すことがわかった。
論文 参考訳(メタデータ) (2023-05-24T02:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。