論文の概要: CLiMP: A Benchmark for Chinese Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2101.11131v1
- Date: Tue, 26 Jan 2021 23:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 19:55:50.568296
- Title: CLiMP: A Benchmark for Chinese Language Model Evaluation
- Title(参考訳): CLiMP: 中国語モデル評価のためのベンチマーク
- Authors: Beilei Xiang, Changbing Yang, Yu Li, Alex Warstadt and Katharina Kann
- Abstract要約: 中国語の言語最小対(CLiMP)のコーパスを紹介します。
climpはマンダリンにおける16の構文コントラストのための1000個の最小ペア(mps)で構成され、9つの主要なマンダリン言語現象をカバーする。
CLiMP上の11種類のLMを評価し,n-gram,LSTM,中国BERTについて検討した。
- 参考スコア(独自算出の注目度): 17.13061722469761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linguistically informed analyses of language models (LMs) contribute to the
understanding and improvement of these models. Here, we introduce the corpus of
Chinese linguistic minimal pairs (CLiMP), which can be used to investigate what
knowledge Chinese LMs acquire. CLiMP consists of sets of 1,000 minimal pairs
(MPs) for 16 syntactic contrasts in Mandarin, covering 9 major Mandarin
linguistic phenomena. The MPs are semi-automatically generated, and human
agreement with the labels in CLiMP is 95.8%. We evaluated 11 different LMs on
CLiMP, covering n-grams, LSTMs, and Chinese BERT. We find that classifier-noun
agreement and verb complement selection are the phenomena that models generally
perform best at. However, models struggle the most with the ba construction,
binding, and filler-gap dependencies. Overall, Chinese BERT achieves an 81.8%
average accuracy, while the performances of LSTMs and 5-grams are only
moderately above chance level.
- Abstract(参考訳): 言語モデル(LM)の言語情報分析は、これらのモデルの理解と改善に寄与する。
ここでは、中国のLMが取得する知識を調査するために使用できる中国語の言語最小ペア(CLiMP)のコーパスを紹介します。
climpはマンダリンにおける16の構文コントラストのための1000個の最小ペア(mps)で構成され、9つの主要なマンダリン言語現象をカバーする。
MPは半自動生成され、CLiMPのラベルとの人間の一致は95.8%である。
CLiMPで11種類のLMを評価し,n-gram,LSTM,中国BERTについて検討した。
分類子-名詞の一致と動詞補完の選択は、モデルが一般的に最善を尽くす現象であることがわかります。
しかし、モデルはbaの構築、バインディング、およびフィラーギャップの依存関係に最も苦労する。
全体として、中国のBERTの平均精度は81.8%であり、LSTMと5グラムのパフォーマンスはやや上回っている。
関連論文リスト
- CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the
Generalizability of Large Language Models [74.08927882382943]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
28個のLCMを評価したところ,最高のモデルでは52.9%に過ぎず,顕著な性能差が認められた。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning:
Insights and Observations [90.73517523001149]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。
MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。
分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文 参考訳(メタデータ) (2023-09-14T04:36:00Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Massively Multilingual Shallow Fusion with Large Language Models [62.76735265311028]
複数の言語で浅い融合のための単一多言語言語モデル(LM)を訓練する。
GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。
多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。
論文 参考訳(メタデータ) (2023-02-17T14:46:38Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z) - SLING: Sino Linguistic Evaluation of Large Language Models [34.42512869432145]
Sling (Sino linguistics) は、中国語における38Kの最小文対を9つの高水準言語現象に分類する。
Sling 上で 18 個の事前訓練された単言語 (BERT-base-zh など) とマルチ言語 (mT5 や XLM など) の言語モデルをテストする。
実験の結果, LMの平均精度は人的性能(69.7%対97.1%)よりはるかに低いが, BERT-base-zhは試験されたLMの最大精度(84.8%)を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-21T02:29:39Z) - CINO: A Chinese Minority Pre-trained Language Model [30.447739293695026]
中国語マイノリティ事前学習言語モデル(CINO)を提案する。
標準中国語、カントン諸語、その他の6つの少数言語をカバーしている。
論文 参考訳(メタデータ) (2022-02-28T06:02:06Z) - Cross-Linguistic Syntactic Evaluation of Word Prediction Models [25.39896327641704]
本稿では,ニューラルワード予測モデルの文法学習能力が言語によってどう異なるかを検討する。
CLAMSには、英語、フランス語、ドイツ語、ヘブライ語、ロシア語のサブバーブ協定の課題セットが含まれている。
CLAMSを用いてLSTM言語モデルと単言語および多言語BERTの評価を行う。
論文 参考訳(メタデータ) (2020-05-01T02:51:20Z) - BLiMP: The Benchmark of Linguistic Minimal Pairs for English [23.2834990762859]
言語最小ペアのベンチマーク(英語: Benchmark of Linguistic Minimal Pairs、略称BLiMP)は、言語モデル(LM)が英語の主要な文法現象について何を知っているかを評価するための課題セットである。
BLiMPは67のサブデータセットで構成され、それぞれが1000組の最小ペアを含み、構文、形態学、意味論において特定のコントラストを分離する。
現状のモデルは形態的コントラストを確実に識別するが、定量化器と負極性項目の分布に関する意味的制約に苦慮している。
論文 参考訳(メタデータ) (2019-12-02T05:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。