論文の概要: SLING: Sino Linguistic Evaluation of Large Language Models
- arxiv url: http://arxiv.org/abs/2210.11689v1
- Date: Fri, 21 Oct 2022 02:29:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 14:36:19.628454
- Title: SLING: Sino Linguistic Evaluation of Large Language Models
- Title(参考訳): Sling: 大規模言語モデルのSino言語学的評価
- Authors: Yixiao Song, Kalpesh Krishna, Rajesh Bhatt and Mohit Iyyer
- Abstract要約: Sling (Sino linguistics) は、中国語における38Kの最小文対を9つの高水準言語現象に分類する。
Sling 上で 18 個の事前訓練された単言語 (BERT-base-zh など) とマルチ言語 (mT5 や XLM など) の言語モデルをテストする。
実験の結果, LMの平均精度は人的性能(69.7%対97.1%)よりはるかに低いが, BERT-base-zhは試験されたLMの最大精度(84.8%)を達成していることがわかった。
- 参考スコア(独自算出の注目度): 34.42512869432145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To understand what kinds of linguistic knowledge are encoded by pretrained
Chinese language models (LMs), we introduce the benchmark of Sino LINGuistics
(SLING), which consists of 38K minimal sentence pairs in Mandarin Chinese
grouped into 9 high-level linguistic phenomena. Each pair demonstrates the
acceptability contrast of a specific syntactic or semantic phenomenon (e.g.,
The keys are lost vs. The keys is lost), and an LM should assign lower
perplexity to the acceptable sentence. In contrast to the CLiMP dataset (Xiang
et al., 2021), which also contains Chinese minimal pairs and was created by
translating the vocabulary of the English BLiMP dataset, the minimal pairs in
SLING are derived primarily by applying syntactic and lexical transformations
to naturally-occurring, linguist-annotated sentences from the Chinese Treebank
9.0, thus addressing severe issues in CLiMP's data generation process. We test
18 publicly available pretrained monolingual (e.g., BERT-base-zh, CPM) and
multi-lingual (e.g., mT5, XLM) language models on SLING. Our experiments show
that the average accuracy for LMs is far below human performance (69.7% vs.
97.1%), while BERT-base-zh achieves the highest accuracy (84.8%) of all tested
LMs, even much larger ones. Additionally, we find that most LMs have a strong
gender and number (singular/plural) bias, and they perform better on local
phenomena than hierarchical ones.
- Abstract(参考訳): 事前学習された中国語モデル(lms)によってどのような言語知識がエンコードされているかを理解するために,中国語の38kの最小文対を9つの高レベル言語現象に分類したsling(sino languageics)ベンチマークを紹介する。
各ペアは特定の構文的あるいは意味的現象(例えばキーが失われても鍵が失われる)の受け入れ可能性のコントラストを示し、lmは許容される文に対して低いパープレキシティを割り当てるべきである。
CLiMPデータセット(Xiang et al., 2021)は、中国語の最小のペアを含んでいて、英語のBLiMPデータセットの語彙を翻訳することによって作成されたものであるが、Slingの最小のペアは主に、中国のツリーバンク9.0から自然に帰結する語彙変換と語彙変換を適用し、CLiMPのデータ生成プロセスの深刻な問題に対処することによって導かれる。
Sling 上で 18 個の事前訓練された単言語 (BERT-base-zh, CPM など) とマルチ言語 (mT5, XLM など) の言語モデルをテストする。
実験の結果, LMの平均精度は人的性能(69.7%対97.1%)よりはるかに低いが, BERT-base-zhは試験されたLMの最大精度(84.8%)を達成している。
さらに、ほとんどのLMは、性別や数(特異/複数)の偏りが強く、階層的なものよりも局所現象に優れています。
関連論文リスト
- CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the
Generalizability of Large Language Models [74.08927882382943]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
28個のLCMを評価したところ,最高のモデルでは52.9%に過ぎず,顕著な性能差が認められた。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。
MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。
分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文 参考訳(メタデータ) (2023-09-14T04:36:00Z) - Sort by Structure: Language Model Ranking as Dependency Probing [25.723591566201343]
事前学習型言語モデル (LM) のインフォームドな選択は、性能上重要であるが、環境上はコストがかかる。
本稿では,LMの文脈的埋め込みからラベル付き木が回復可能な程度を計測することにより,特定の言語における依存関係を解析するために,LMのランク付けを提案する。
本手法は,46のタイプ的およびアーキテクチャ的に多様なLM言語対に対して,計算量の少ない命令の79%のLM選択を,計算量の少ない命令のフルグレードのトレーニングよりも最適に予測する。
論文 参考訳(メタデータ) (2022-06-10T08:10:29Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - CLiMP: A Benchmark for Chinese Language Model Evaluation [17.13061722469761]
中国語の言語最小対(CLiMP)のコーパスを紹介します。
climpはマンダリンにおける16の構文コントラストのための1000個の最小ペア(mps)で構成され、9つの主要なマンダリン言語現象をカバーする。
CLiMP上の11種類のLMを評価し,n-gram,LSTM,中国BERTについて検討した。
論文 参考訳(メタデータ) (2021-01-26T23:16:29Z) - OCNLI: Original Chinese Natural Language Inference [21.540733910984006]
我々は,中国における最初の大規模NLIデータセット(56,000の注釈付き文対からなる)であるOriginal Chinese Natural Language Inference dataset(OCNLI)を提示する。
NLIを他の言語に拡張しようとする最近の試みとは異なり、私たちのデータセットは自動翻訳や非専門家アノテーションに依存していません。
我々は、中国語の最先端の事前訓練モデルを用いて、データセット上でいくつかのベースライン結果を確立し、人間のパフォーマンスよりもはるかに優れたパフォーマンスモデルを見つける。
論文 参考訳(メタデータ) (2020-10-12T04:25:48Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z) - BLiMP: The Benchmark of Linguistic Minimal Pairs for English [23.2834990762859]
言語最小ペアのベンチマーク(英語: Benchmark of Linguistic Minimal Pairs、略称BLiMP)は、言語モデル(LM)が英語の主要な文法現象について何を知っているかを評価するための課題セットである。
BLiMPは67のサブデータセットで構成され、それぞれが1000組の最小ペアを含み、構文、形態学、意味論において特定のコントラストを分離する。
現状のモデルは形態的コントラストを確実に識別するが、定量化器と負極性項目の分布に関する意味的制約に苦慮している。
論文 参考訳(メタデータ) (2019-12-02T05:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。