論文の概要: SLING: Sino Linguistic Evaluation of Large Language Models
- arxiv url: http://arxiv.org/abs/2210.11689v1
- Date: Fri, 21 Oct 2022 02:29:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 14:36:19.628454
- Title: SLING: Sino Linguistic Evaluation of Large Language Models
- Title(参考訳): Sling: 大規模言語モデルのSino言語学的評価
- Authors: Yixiao Song, Kalpesh Krishna, Rajesh Bhatt and Mohit Iyyer
- Abstract要約: Sling (Sino linguistics) は、中国語における38Kの最小文対を9つの高水準言語現象に分類する。
Sling 上で 18 個の事前訓練された単言語 (BERT-base-zh など) とマルチ言語 (mT5 や XLM など) の言語モデルをテストする。
実験の結果, LMの平均精度は人的性能(69.7%対97.1%)よりはるかに低いが, BERT-base-zhは試験されたLMの最大精度(84.8%)を達成していることがわかった。
- 参考スコア(独自算出の注目度): 34.42512869432145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To understand what kinds of linguistic knowledge are encoded by pretrained
Chinese language models (LMs), we introduce the benchmark of Sino LINGuistics
(SLING), which consists of 38K minimal sentence pairs in Mandarin Chinese
grouped into 9 high-level linguistic phenomena. Each pair demonstrates the
acceptability contrast of a specific syntactic or semantic phenomenon (e.g.,
The keys are lost vs. The keys is lost), and an LM should assign lower
perplexity to the acceptable sentence. In contrast to the CLiMP dataset (Xiang
et al., 2021), which also contains Chinese minimal pairs and was created by
translating the vocabulary of the English BLiMP dataset, the minimal pairs in
SLING are derived primarily by applying syntactic and lexical transformations
to naturally-occurring, linguist-annotated sentences from the Chinese Treebank
9.0, thus addressing severe issues in CLiMP's data generation process. We test
18 publicly available pretrained monolingual (e.g., BERT-base-zh, CPM) and
multi-lingual (e.g., mT5, XLM) language models on SLING. Our experiments show
that the average accuracy for LMs is far below human performance (69.7% vs.
97.1%), while BERT-base-zh achieves the highest accuracy (84.8%) of all tested
LMs, even much larger ones. Additionally, we find that most LMs have a strong
gender and number (singular/plural) bias, and they perform better on local
phenomena than hierarchical ones.
- Abstract(参考訳): 事前学習された中国語モデル(lms)によってどのような言語知識がエンコードされているかを理解するために,中国語の38kの最小文対を9つの高レベル言語現象に分類したsling(sino languageics)ベンチマークを紹介する。
各ペアは特定の構文的あるいは意味的現象(例えばキーが失われても鍵が失われる)の受け入れ可能性のコントラストを示し、lmは許容される文に対して低いパープレキシティを割り当てるべきである。
CLiMPデータセット(Xiang et al., 2021)は、中国語の最小のペアを含んでいて、英語のBLiMPデータセットの語彙を翻訳することによって作成されたものであるが、Slingの最小のペアは主に、中国のツリーバンク9.0から自然に帰結する語彙変換と語彙変換を適用し、CLiMPのデータ生成プロセスの深刻な問題に対処することによって導かれる。
Sling 上で 18 個の事前訓練された単言語 (BERT-base-zh, CPM など) とマルチ言語 (mT5, XLM など) の言語モデルをテストする。
実験の結果, LMの平均精度は人的性能(69.7%対97.1%)よりはるかに低いが, BERT-base-zhは試験されたLMの最大精度(84.8%)を達成している。
さらに、ほとんどのLMは、性別や数(特異/複数)の偏りが強く、階層的なものよりも局所現象に優れています。
関連論文リスト
- ZhoBLiMP: a Systematic Assessment of Language Models with Linguistic Minimal Pairs in Chinese [18.90198316015052]
ZhoBLiMPは、中国語の言語最小ペアの最も包括的なベンチマークである。
次に、中国のコーパスで異なるサイズ(14M〜1.4B)の20個のLMを訓練し、ZhoBLiMPで14個の既製LCMとともに評価する。
全体としては、中国の文法はおよそ5億のパラメータを持つモデルによって学習され、1つのエポックで1Bトークンで訓練され、さらなるスケーリングのメリットが限定されていることを示している。
論文 参考訳(メタデータ) (2024-11-09T07:16:08Z) - Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models [11.287933170894311]
724Kの仮説と書き起こしのペアを持つ中国語ASRの誤り訂正を目的とした,特殊なベンチマークデータセットを構築した。
本稿では,テキスト仮説から直接Pinyinを転写するプロンプトに対するPinyin正規化法を提案する。
論文 参考訳(メタデータ) (2024-07-02T03:16:47Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - mPLM-Sim: Better Cross-Lingual Similarity and Transfer in Multilingual Pretrained Language Models [57.225289079198454]
マルチ並列コーパスを用いてmPLMから言語間の類似性を誘導する言語類似度尺度mPLMSimを提案する。
本研究は,mPLM-Simが,レキシコ,系譜系,地理的スプラックバンドなどの言語類似性尺度と適度に高い相関を示すことを示す。
さらに,mPLMSimが低レベル構文タスクと高レベル意味タスクの両方で実験を行うことで,ゼロショットの言語間移動に有効であるかどうかについても検討する。
論文 参考訳(メタデータ) (2023-05-23T04:44:26Z) - CLiMP: A Benchmark for Chinese Language Model Evaluation [17.13061722469761]
中国語の言語最小対(CLiMP)のコーパスを紹介します。
climpはマンダリンにおける16の構文コントラストのための1000個の最小ペア(mps)で構成され、9つの主要なマンダリン言語現象をカバーする。
CLiMP上の11種類のLMを評価し,n-gram,LSTM,中国BERTについて検討した。
論文 参考訳(メタデータ) (2021-01-26T23:16:29Z) - BLiMP: The Benchmark of Linguistic Minimal Pairs for English [23.2834990762859]
言語最小ペアのベンチマーク(英語: Benchmark of Linguistic Minimal Pairs、略称BLiMP)は、言語モデル(LM)が英語の主要な文法現象について何を知っているかを評価するための課題セットである。
BLiMPは67のサブデータセットで構成され、それぞれが1000組の最小ペアを含み、構文、形態学、意味論において特定のコントラストを分離する。
現状のモデルは形態的コントラストを確実に識別するが、定量化器と負極性項目の分布に関する意味的制約に苦慮している。
論文 参考訳(メタデータ) (2019-12-02T05:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。