論文の概要: ZhoBLiMP: a Systematic Assessment of Language Models with Linguistic Minimal Pairs in Chinese
- arxiv url: http://arxiv.org/abs/2411.06096v1
- Date: Sat, 09 Nov 2024 07:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:10:22.513598
- Title: ZhoBLiMP: a Systematic Assessment of Language Models with Linguistic Minimal Pairs in Chinese
- Title(参考訳): ZhoBLiMP:中国語の言語学的最小ペアを用いた言語モデルの体系的評価
- Authors: Yikang Liu, Yeting Shen, Hongao Zhu, Lilong Xu, Zhiheng Qian, Siyuan Song, Kejia Zhang, Jialong Tang, Pei Zhang, Baosong Yang, Rui Wang, Hai Hu,
- Abstract要約: ZhoBLiMPは、中国語の言語最小ペアの最も包括的なベンチマークである。
次に、中国のコーパスで異なるサイズ(14M〜1.4B)の20個のLMを訓練し、ZhoBLiMPで14個の既製LCMとともに評価する。
全体としては、中国の文法はおよそ5億のパラメータを持つモデルによって学習され、1つのエポックで1Bトークンで訓練され、さらなるスケーリングのメリットが限定されていることを示している。
- 参考スコア(独自算出の注目度): 18.90198316015052
- License:
- Abstract: Whether and how language models (LMs) acquire the syntax of natural languages has been widely evaluated under the minimal pair paradigm. However, a lack of wide-coverage benchmarks in languages other than English has constrained systematic investigations into the issue. Addressing it, we first introduce ZhoBLiMP, the most comprehensive benchmark of linguistic minimal pairs for Chinese to date, with 118 paradigms, covering 15 linguistic phenomena. We then train 20 LMs of different sizes (14M to 1.4B) on Chinese corpora of various volumes (100M to 3B tokens) and evaluate them along with 14 off-the-shelf LLMs on ZhoBLiMP. The overall results indicate that Chinese grammar can be mostly learned by models with around 500M parameters, trained on 1B tokens with one epoch, showing limited benefits for further scaling. Most (N=95) linguistic paradigms are of easy or medium difficulty for LMs, while there are still 13 paradigms that remain challenging even for models with up to 32B parameters. In regard to how LMs acquire Chinese grammar, we observe a U-shaped learning pattern in several phenomena, similar to those observed in child language acquisition.
- Abstract(参考訳): 言語モデル(LM)が自然言語の構文をいかに獲得するかは、最小のペアパラダイムの下で広く評価されている。
しかし、英語以外の言語での広範なベンチマークの欠如により、この問題に関する体系的な調査が制限されている。
ZhoBLiMPは、118のパラダイムで15の言語現象をカバーし、現在に至るまで、最も包括的な言語最小ペアのベンチマークである。
次に,ZhoBLiMP上の14個の既製LCMとともに,各巻の中国コーパス(100M〜3Bトークン)に異なるサイズ(14M〜1.4B)のLMを訓練し,評価を行った。
全体としては、中国の文法は、およそ5億のパラメータを持つモデルによって学習され、1つのエポックで1Bトークンで訓練され、さらなるスケーリングのメリットが限定されていることを示している。
ほとんどの(N=95)言語パラダイムは、LMにとって容易または中程度の難易度を持つが、最大32Bパラメータを持つモデルでさえまだ挑戦的な13のパラダイムが存在する。
LMが中国語の文法をどう取得するかについては,児童語習得にみられるような,いくつかの現象において,U字型学習パターンを観察する。
関連論文リスト
- Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Paramanu: A Family of Novel Efficient Generative Foundation Language Models for Indian Languages [3.9018931027384056]
インド語のための新しい言語モデル(LM)のファミリーである「Paramanu」を提示する。
10の言語(アッサム語、バングラ語、ヒンディー語、コンカニ語、マイティシ語、マラティ語、オディア語、サンスクリット語、タミル語、テルグ語)を5文字でカバーしている。
モデルは、コンテキストサイズが1024の1つのGPUで事前トレーニングされており、サイズは13.29万(M)から367.5Mまで様々である。
論文 参考訳(メタデータ) (2024-01-31T17:58:10Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - TinyStories: How Small Can Language Models Be and Still Speak Coherent
English? [37.65216279977461]
言語モデル(LM)は、小さくて一貫性があり、流動的なテキストを生成するのに苦労することが多い。
TinyStoriesを紹介します。これは、典型的な3~4歳の人が通常理解している単語のみを含む短いストーリーのデータセットです。
我々はTinyStoriesを用いて,最先端モデルよりもはるかに小さいLMをトレーニングし,評価することができることを示す。
論文 参考訳(メタデータ) (2023-05-12T20:56:48Z) - SLING: Sino Linguistic Evaluation of Large Language Models [34.42512869432145]
Sling (Sino linguistics) は、中国語における38Kの最小文対を9つの高水準言語現象に分類する。
Sling 上で 18 個の事前訓練された単言語 (BERT-base-zh など) とマルチ言語 (mT5 や XLM など) の言語モデルをテストする。
実験の結果, LMの平均精度は人的性能(69.7%対97.1%)よりはるかに低いが, BERT-base-zhは試験されたLMの最大精度(84.8%)を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-21T02:29:39Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - CLiMP: A Benchmark for Chinese Language Model Evaluation [17.13061722469761]
中国語の言語最小対(CLiMP)のコーパスを紹介します。
climpはマンダリンにおける16の構文コントラストのための1000個の最小ペア(mps)で構成され、9つの主要なマンダリン言語現象をカバーする。
CLiMP上の11種類のLMを評価し,n-gram,LSTM,中国BERTについて検討した。
論文 参考訳(メタデータ) (2021-01-26T23:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。