論文の概要: An Improved Traditional Chinese Evaluation Suite for Foundation Model
- arxiv url: http://arxiv.org/abs/2403.01858v1
- Date: Mon, 4 Mar 2024 09:13:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:28:01.001840
- Title: An Improved Traditional Chinese Evaluation Suite for Foundation Model
- Title(参考訳): 基礎モデルのための中国伝統評価スイートの改良
- Authors: Zhi-Rui Tam, Ya-Ting Pai, Yen-Wei Lee, Sega Cheng, Hong-Han Shuai
- Abstract要約: 従来の中国語マルチタスク大規模言語理解データセット用に設計された包括的データセットであるTMMLU+を提案する。
TMMLU+は、小学生から専門職まで66名の被験者からなる多票質問回答データセットである。
クローズドソースモデルによるTMMLU+のベンチマーク結果と、1.8Bから72Bまでのパラメータの24のオープンウェイトな中国語大言語モデルを含む。
- 参考スコア(独自算出の注目度): 18.456779303458603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present TMMLU+, a comprehensive dataset designed for the Traditional
Chinese massive multitask language understanding dataset. TMMLU+ is a
multiple-choice question-answering dataset with 66 subjects from elementary to
professional level. Compared to its predecessor, TMMLU, TMMLU+ is six times
larger and boasts a more balanced subject distribution. We included benchmark
results in TMMLU+ from closed-source models and 24 open-weight Chinese large
language models of parameters ranging from 1.8B to 72B. Our findings reveal
that Traditional Chinese models still trail behind their Simplified Chinese
counterparts. Additionally, current large language models have yet to
outperform human performance in average scores. We publicly release our dataset
and the corresponding benchmark source code.
- Abstract(参考訳): 従来中国の大規模マルチタスク言語理解データセット用に設計された包括的データセットであるTMMLU+を提案する。
TMMLU+は、小学生から専門職まで66名の被験者からなる多票質問回答データセットである。
前者のTMMLUと比較すると、TMMLU+は6倍大きく、よりバランスの取れた主題分布を持つ。
クローズドソースモデルによるTMMLU+のベンチマーク結果と、1.8Bから72Bまでのパラメータの24の中国語大言語モデルを含む。
従来の中国のモデルは、簡素な中国のモデルよりずっと遅れている。
さらに、現在の大きな言語モデルは、平均的なスコアで人間のパフォーマンスをまだ上回っていない。
データセットと対応するベンチマークソースコードを公開しています。
関連論文リスト
- Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom [4.142301960178498]
SwordsmanImpは、会話の不適応を目的とした中国初のマルチターン対話ベースのデータセットである。
200の注意深い手作りの質問が含まれており、すべての注釈がグリサンの最大値が違反している。
以上の結果から, GPT-4は, 複数質問に対する人間レベルの精度(94%)を達成できることがわかった。
GPT-3.5やいくつかのオープンソースモデルを含む他のモデルは、複数の質問に対して20%から60%の低い精度を示している。
論文 参考訳(メタデータ) (2024-04-30T12:43:53Z) - Bailong: Bilingual Transfer Learning based on QLoRA and Zip-tie Embedding [0.0]
大規模言語モデル (LLM) は様々なNLPアプリケーションにおいて例外的な性能を示した。
オープンソースのLLMの大部分は、主に英語のデータと他言語のほとんどに基づいて事前訓練されている。
マルチターン対話シナリオに最適化されたBailong 7Bの微調整バージョンであるBailongを提案する。
論文 参考訳(メタデータ) (2024-04-01T02:04:44Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the
Generalizability of Large Language Models [74.08927882382943]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
28個のLCMを評価したところ,最高のモデルでは52.9%に過ぎず,顕著な性能差が認められた。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - SLING: Sino Linguistic Evaluation of Large Language Models [34.42512869432145]
Sling (Sino linguistics) は、中国語における38Kの最小文対を9つの高水準言語現象に分類する。
Sling 上で 18 個の事前訓練された単言語 (BERT-base-zh など) とマルチ言語 (mT5 や XLM など) の言語モデルをテストする。
実験の結果, LMの平均精度は人的性能(69.7%対97.1%)よりはるかに低いが, BERT-base-zhは試験されたLMの最大精度(84.8%)を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-21T02:29:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。