論文の概要: CLiMP: A Benchmark for Chinese Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2101.11131v1
- Date: Tue, 26 Jan 2021 23:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 19:55:50.568296
- Title: CLiMP: A Benchmark for Chinese Language Model Evaluation
- Title(参考訳): CLiMP: 中国語モデル評価のためのベンチマーク
- Authors: Beilei Xiang, Changbing Yang, Yu Li, Alex Warstadt and Katharina Kann
- Abstract要約: 中国語の言語最小対(CLiMP)のコーパスを紹介します。
climpはマンダリンにおける16の構文コントラストのための1000個の最小ペア(mps)で構成され、9つの主要なマンダリン言語現象をカバーする。
CLiMP上の11種類のLMを評価し,n-gram,LSTM,中国BERTについて検討した。
- 参考スコア(独自算出の注目度): 17.13061722469761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linguistically informed analyses of language models (LMs) contribute to the
understanding and improvement of these models. Here, we introduce the corpus of
Chinese linguistic minimal pairs (CLiMP), which can be used to investigate what
knowledge Chinese LMs acquire. CLiMP consists of sets of 1,000 minimal pairs
(MPs) for 16 syntactic contrasts in Mandarin, covering 9 major Mandarin
linguistic phenomena. The MPs are semi-automatically generated, and human
agreement with the labels in CLiMP is 95.8%. We evaluated 11 different LMs on
CLiMP, covering n-grams, LSTMs, and Chinese BERT. We find that classifier-noun
agreement and verb complement selection are the phenomena that models generally
perform best at. However, models struggle the most with the ba construction,
binding, and filler-gap dependencies. Overall, Chinese BERT achieves an 81.8%
average accuracy, while the performances of LSTMs and 5-grams are only
moderately above chance level.
- Abstract(参考訳): 言語モデル(LM)の言語情報分析は、これらのモデルの理解と改善に寄与する。
ここでは、中国のLMが取得する知識を調査するために使用できる中国語の言語最小ペア(CLiMP)のコーパスを紹介します。
climpはマンダリンにおける16の構文コントラストのための1000個の最小ペア(mps)で構成され、9つの主要なマンダリン言語現象をカバーする。
MPは半自動生成され、CLiMPのラベルとの人間の一致は95.8%である。
CLiMPで11種類のLMを評価し,n-gram,LSTM,中国BERTについて検討した。
分類子-名詞の一致と動詞補完の選択は、モデルが一般的に最善を尽くす現象であることがわかります。
しかし、モデルはbaの構築、バインディング、およびフィラーギャップの依存関係に最も苦労する。
全体として、中国のBERTの平均精度は81.8%であり、LSTMと5グラムのパフォーマンスはやや上回っている。
関連論文リスト
- ZhoBLiMP: a Systematic Assessment of Language Models with Linguistic Minimal Pairs in Chinese [18.90198316015052]
ZhoBLiMPは、中国語の言語最小ペアの最も包括的なベンチマークである。
次に、中国のコーパスで異なるサイズ(14M〜1.4B)の20個のLMを訓練し、ZhoBLiMPで14個の既製LCMとともに評価する。
全体としては、中国の文法はおよそ5億のパラメータを持つモデルによって学習され、1つのエポックで1Bトークンで訓練され、さらなるスケーリングのメリットが限定されていることを示している。
論文 参考訳(メタデータ) (2024-11-09T07:16:08Z) - Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model [36.01840141194335]
2B大言語モデル(LLM)であるCT-LLMを導入する。
CT-LLMは、スクラッチから一意に開始され、中国語のテキストデータを組み込んで従来の手法から分岐する。
CT-LLMは中国語のタスクに優れており、SFTを通して英語で適応性を示す。
論文 参考訳(メタデータ) (2024-04-05T15:20:02Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。
我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。
自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文 参考訳(メタデータ) (2023-11-30T17:41:30Z) - ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。
MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。
分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文 参考訳(メタデータ) (2023-09-14T04:36:00Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - mPLM-Sim: Better Cross-Lingual Similarity and Transfer in Multilingual Pretrained Language Models [57.225289079198454]
マルチ並列コーパスを用いてmPLMから言語間の類似性を誘導する言語類似度尺度mPLMSimを提案する。
本研究は,mPLM-Simが,レキシコ,系譜系,地理的スプラックバンドなどの言語類似性尺度と適度に高い相関を示すことを示す。
さらに,mPLMSimが低レベル構文タスクと高レベル意味タスクの両方で実験を行うことで,ゼロショットの言語間移動に有効であるかどうかについても検討する。
論文 参考訳(メタデータ) (2023-05-23T04:44:26Z) - Massively Multilingual Shallow Fusion with Large Language Models [62.76735265311028]
複数の言語で浅い融合のための単一多言語言語モデル(LM)を訓練する。
GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。
多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。
論文 参考訳(メタデータ) (2023-02-17T14:46:38Z) - SLING: Sino Linguistic Evaluation of Large Language Models [34.42512869432145]
Sling (Sino linguistics) は、中国語における38Kの最小文対を9つの高水準言語現象に分類する。
Sling 上で 18 個の事前訓練された単言語 (BERT-base-zh など) とマルチ言語 (mT5 や XLM など) の言語モデルをテストする。
実験の結果, LMの平均精度は人的性能(69.7%対97.1%)よりはるかに低いが, BERT-base-zhは試験されたLMの最大精度(84.8%)を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-21T02:29:39Z) - BLiMP: The Benchmark of Linguistic Minimal Pairs for English [23.2834990762859]
言語最小ペアのベンチマーク(英語: Benchmark of Linguistic Minimal Pairs、略称BLiMP)は、言語モデル(LM)が英語の主要な文法現象について何を知っているかを評価するための課題セットである。
BLiMPは67のサブデータセットで構成され、それぞれが1000組の最小ペアを含み、構文、形態学、意味論において特定のコントラストを分離する。
現状のモデルは形態的コントラストを確実に識別するが、定量化器と負極性項目の分布に関する意味的制約に苦慮している。
論文 参考訳(メタデータ) (2019-12-02T05:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。