Fugu-MT 論文翻訳(概要): Measuring Taiwanese Mandarin Language Understanding

論文の概要: Measuring Taiwanese Mandarin Language Understanding

arxiv url: http://arxiv.org/abs/2403.20180v1
Date: Fri, 29 Mar 2024 13:56:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 15:34:34.139898
Title: Measuring Taiwanese Mandarin Language Understanding
Title（参考訳）: 台湾のマンダリン言語理解度の測定
Authors: Po-Heng Chen, Sijia Cheng, Wei-Lin Chen, Yen-Ting Lin, Yun-Nung Chen,
Abstract要約: 大規模言語モデル(LLM)における高度な知識と推論能力を評価するための総合評価スーツであるTMLUを提案する。 TMLUは、社会科学、STEM、人文科学、台湾固有のコンテンツなど、中学から専門レベルまで、37の被験者からなる。
参考スコア（独自算出の注目度）: 24.581360653015423
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The evaluation of large language models (LLMs) has drawn substantial attention in the field recently. This work focuses on evaluating LLMs in a Chinese context, specifically, for Traditional Chinese which has been largely underrepresented in existing benchmarks. We present TMLU, a holistic evaluation suit tailored for assessing the advanced knowledge and reasoning capability in LLMs, under the context of Taiwanese Mandarin. TMLU consists of an array of 37 subjects across social science, STEM, humanities, Taiwan-specific content, and others, ranging from middle school to professional levels. In addition, we curate chain-of-thought-like few-shot explanations for each subject to facilitate the evaluation of complex reasoning skills. To establish a comprehensive baseline, we conduct extensive experiments and analysis on 24 advanced LLMs. The results suggest that Chinese open-weight models demonstrate inferior performance comparing to multilingual proprietary ones, and open-weight models tailored for Taiwanese Mandarin lag behind the Simplified-Chinese counterparts. The findings indicate great headrooms for improvement, and emphasize the goal of TMLU to foster the development of localized Taiwanese-Mandarin LLMs. We release the benchmark and evaluation scripts for the community to promote future research.
Abstract（参考訳）: 近年,大規模言語モデル (LLM) の評価が注目されている。この研究は、中国の文脈、特に既存のベンチマークでほとんど表現されていない伝統的な中国語に対するLLMの評価に焦点を当てている。台湾のマンダリンの文脈下で,LLMにおける高度な知識と推論能力を評価するための総合評価スーツTMLUを提案する。 TMLUは、社会科学、STEM、人文科学、台湾固有のコンテンツなど、中学から専門レベルまで、37の被験者からなる。さらに、複雑な推論スキルの評価を容易にするために、各被験者に対してチェーン・オブ・シンクのようないくつかの説明をキュレートする。包括的ベースラインを確立するため,24基の先進LDMの広範な実験と解析を行った。以上の結果から,中国のオープンウェイトモデルは多言語プロプライエタリモデルに比べて性能が劣り,台湾のマンダリンが簡素な中国モデルよりも遅れていることが示唆された。本研究は, 台湾産マンダリン LLM の開発を促進すべく, TMLU の目標を立案した。我々は,今後の研究を促進するため,コミュニティのためのベンチマークと評価スクリプトをリリースする。

関連論文リスト

Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese [52.98034458924209]
本研究では,大言語モデルが中国語の2つの変種に刺激された場合の差分性能について検討する。実世界のシナリオを反映した2つのベンチマークタスクを設計する。分析の結果、LLM応答のバイアスはタスクとプロンプト言語の両方に依存していることがわかった。
論文参考訳（メタデータ） (2025-05-28T17:56:49Z)
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳（メタデータ） (2025-04-25T15:39:04Z)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
VisTW: Benchmarking Vision-Language Models for Traditional Chinese in Taiwan [20.92636353621876]
本稿では,従来の中国語における視覚言語モデル(VLM)の総合評価ベンチマークを提案する。評価スイートは,VisTW-MCQとVisTW-Dialogueの2つの相補的なコンポーネントを含む。
論文参考訳（メタデータ） (2025-03-13T14:49:35Z)
Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文参考訳（メタデータ） (2024-10-16T07:49:13Z)
Unveiling the Competitive Dynamics: A Comparative Evaluation of American and Chinese LLMs [13.112787482203286]
本研究は、英語と中国語の両文脈において、米国と中国語の大規模言語モデル(LLM)の比較評価を行う。本研究では,自然言語の習熟度,専門知識,安全性と責任を包括的に評価する枠組みを提案する。 GPT 4-Turboは英語の文脈では最前線にあり、Ernie-Bot 4は中国語の文脈では際立っている。
論文参考訳（メタデータ） (2024-05-09T15:39:19Z)
FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文参考訳（メタデータ） (2024-04-29T01:49:07Z)
Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations [34.07537926291133]
CHARMは、中国語で大規模言語モデル(LLM)の常識推論能力を評価するための、網羅的で詳細なベンチマークである。我々はCHARMで7つの英語と12の中国語のLLMを評価した。一部のLLMは中国の常識を覚えることに苦労し、推論能力に影響を及ぼす一方、同様のパフォーマンスにもかかわらず推論の違いを示す。
論文参考訳（メタデータ） (2024-03-21T03:52:01Z)
CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。 CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文参考訳（メタデータ） (2024-02-20T16:02:12Z)
LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。 C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文参考訳（メタデータ） (2024-01-02T06:29:02Z)
CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文参考訳（メタデータ） (2023-06-15T15:49:51Z)
Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文参考訳（メタデータ） (2023-05-21T14:39:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。