Fugu-MT 論文翻訳(概要): An Improved Traditional Chinese Evaluation Suite for Foundation Model

論文の概要: An Improved Traditional Chinese Evaluation Suite for Foundation Model

arxiv url: http://arxiv.org/abs/2403.01858v1
Date: Mon, 4 Mar 2024 09:13:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 19:28:01.001840
Title: An Improved Traditional Chinese Evaluation Suite for Foundation Model
Title（参考訳）: 基礎モデルのための中国伝統評価スイートの改良
Authors: Zhi-Rui Tam, Ya-Ting Pai, Yen-Wei Lee, Sega Cheng, Hong-Han Shuai
Abstract要約: 従来の中国語マルチタスク大規模言語理解データセット用に設計された包括的データセットであるTMMLU+を提案する。 TMMLU+は、小学生から専門職まで66名の被験者からなる多票質問回答データセットである。クローズドソースモデルによるTMMLU+のベンチマーク結果と、1.8Bから72Bまでのパラメータの24のオープンウェイトな中国語大言語モデルを含む。
参考スコア（独自算出の注目度）: 18.456779303458603
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present TMMLU+, a comprehensive dataset designed for the Traditional Chinese massive multitask language understanding dataset. TMMLU+ is a multiple-choice question-answering dataset with 66 subjects from elementary to professional level. Compared to its predecessor, TMMLU, TMMLU+ is six times larger and boasts a more balanced subject distribution. We included benchmark results in TMMLU+ from closed-source models and 24 open-weight Chinese large language models of parameters ranging from 1.8B to 72B. Our findings reveal that Traditional Chinese models still trail behind their Simplified Chinese counterparts. Additionally, current large language models have yet to outperform human performance in average scores. We publicly release our dataset and the corresponding benchmark source code.
Abstract（参考訳）: 従来中国の大規模マルチタスク言語理解データセット用に設計された包括的データセットであるTMMLU+を提案する。 TMMLU+は、小学生から専門職まで66名の被験者からなる多票質問回答データセットである。前者のTMMLUと比較すると、TMMLU+は6倍大きく、よりバランスの取れた主題分布を持つ。クローズドソースモデルによるTMMLU+のベンチマーク結果と、1.8Bから72Bまでのパラメータの24の中国語大言語モデルを含む。従来の中国のモデルは、簡素な中国のモデルよりずっと遅れている。さらに、現在の大きな言語モデルは、平均的なスコアで人間のパフォーマンスをまだ上回っていない。データセットと対応するベンチマークソースコードを公開しています。

関連論文リスト

Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese [52.98034458924209]
本研究では,大言語モデルが中国語の2つの変種に刺激された場合の差分性能について検討する。実世界のシナリオを反映した2つのベンチマークタスクを設計する。分析の結果、LLM応答のバイアスはタスクとプロンプト言語の両方に依存していることがわかった。
論文参考訳（メタデータ） (2025-05-28T17:56:49Z)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
Measuring Taiwanese Mandarin Language Understanding [24.581360653015423]
大規模言語モデル(LLM)における高度な知識と推論能力を評価するための総合評価スーツであるTMLUを提案する。 TMLUは、社会科学、STEM、人文科学、台湾固有のコンテンツなど、中学から専門レベルまで、37の被験者からなる。
論文参考訳（メタデータ） (2024-03-29T13:56:21Z)
Let LLMs Take on the Latest Challenges! A Chinese Dynamic Question Answering Benchmark [69.3415799675046]
我々は,中国インターネットの最新ニュースに関連する質問対を含む中国の動的QAベンチマークCDQAを紹介する。我々は、人間とモデルを組み合わせたパイプラインを通じて高品質なデータを得る。また,CDQA上での中国LLMの評価と分析を行った。
論文参考訳（メタデータ） (2024-02-29T15:22:13Z)
CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。 CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文参考訳（メタデータ） (2024-02-20T16:02:12Z)
YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。 YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文参考訳（メタデータ） (2023-12-22T17:34:47Z)
AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文参考訳（メタデータ） (2023-11-30T17:41:30Z)
CLEVA: Chinese Language Models EVAluation Platform [92.42981537317817]
CLEVAは,中国のLLMを階層的に評価するためのユーザフレンドリーなプラットフォームである。当社のプラットフォームでは,LLMのパフォーマンスをさまざまな次元で評価するために標準化されたワークフローを採用し,定期的に競合するリーダボードを更新しています。汚染を軽減するため、CLEVAは、新しいデータのかなりの割合をキュレーションし、各リーダーボードラウンドのユニークなサブセットを保証するサンプリング戦略を開発する。マウスクリック数回とモデルAPIを必要とする使い勝手の良いインターフェースと、最小限のコーディングで徹底的な評価を行うことができる。
論文参考訳（メタデータ） (2023-08-09T09:11:31Z)
A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文参考訳（メタデータ） (2023-06-23T15:21:52Z)
CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文参考訳（メタデータ） (2023-06-15T15:49:51Z)
SLING: Sino Linguistic Evaluation of Large Language Models [34.42512869432145]
Sling (Sino linguistics) は、中国語における38Kの最小文対を9つの高水準言語現象に分類する。 Sling 上で 18 個の事前訓練された単言語 (BERT-base-zh など) とマルチ言語 (mT5 や XLM など) の言語モデルをテストする。実験の結果, LMの平均精度は人的性能(69.7%対97.1%)よりはるかに低いが, BERT-base-zhは試験されたLMの最大精度(84.8%)を達成していることがわかった。
論文参考訳（メタデータ） (2022-10-21T02:29:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。