論文の概要: BLiMP: The Benchmark of Linguistic Minimal Pairs for English
- arxiv url: http://arxiv.org/abs/1912.00582v4
- Date: Tue, 14 Feb 2023 10:33:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 04:13:34.784448
- Title: BLiMP: The Benchmark of Linguistic Minimal Pairs for English
- Title(参考訳): blimp: 英語のための言語最小ペアのベンチマーク
- Authors: Alex Warstadt, Alicia Parrish, Haokun Liu, Anhad Mohananey, Wei Peng,
Sheng-Fu Wang, Samuel R. Bowman
- Abstract要約: 言語最小ペアのベンチマーク(英語: Benchmark of Linguistic Minimal Pairs、略称BLiMP)は、言語モデル(LM)が英語の主要な文法現象について何を知っているかを評価するための課題セットである。
BLiMPは67のサブデータセットで構成され、それぞれが1000組の最小ペアを含み、構文、形態学、意味論において特定のコントラストを分離する。
現状のモデルは形態的コントラストを確実に識別するが、定量化器と負極性項目の分布に関する意味的制約に苦慮している。
- 参考スコア(独自算出の注目度): 23.2834990762859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce The Benchmark of Linguistic Minimal Pairs (shortened to BLiMP),
a challenge set for evaluating what language models (LMs) know about major
grammatical phenomena in English. BLiMP consists of 67 sub-datasets, each
containing 1000 minimal pairs isolating specific contrasts in syntax,
morphology, or semantics. The data is automatically generated according to
expert-crafted grammars, and aggregate human agreement with the labels is
96.4%. We use it to evaluate n-gram, LSTM, and Transformer (GPT-2 and
Transformer-XL) LMs. We find that state-of-the-art models identify
morphological contrasts reliably, but they struggle with semantic restrictions
on the distribution of quantifiers and negative polarity items and subtle
syntactic phenomena such as extraction islands.
- Abstract(参考訳): 言語モデル(LM)が英語の主要な文法現象について何を知っているかを評価するための課題セットである言語最小ペアのベンチマーク(BLiMPに短縮)を紹介する。
BLiMPは67のサブデータセットで構成され、それぞれが1000の最小のペアを含む。
データは専門家が作成した文法に従って自動的に生成され、ラベルとの人間の合意は96.4%である。
我々は,n-gram, LSTM, Transformer (GPT-2, Transformer-XL) のLMを評価する。
現状のモデルは, 形態的コントラストを確実に同定するが, 定量化器の分布や負極性成分, 抽出島などの微妙な統語現象のセマンティックな制約に苦慮している。
関連論文リスト
- Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - RuBLiMP: Russian Benchmark of Linguistic Minimal Pairs [2.9521383230206966]
本稿では,RuBLiMP (Linguistic Minimal Pairs) のロシア語ベンチマークを紹介する。
RuBLiMPは文法性が異なる45k対の文を含み、形態的、構文的、意味的な現象を分離する。
ロシア語の言語モデルは, 構造的・合意的コントラストに敏感であるが, 構造的関係, 否定, 推移性, 時制の理解を必要とする現象に人間に遅れがあることが判明した。
論文 参考訳(メタデータ) (2024-06-27T14:55:19Z) - Evaluating Large Language Models Using Contrast Sets: An Experimental Approach [0.0]
本研究では,スタンフォード自然言語推論データセットのコントラストセットを生成する革新的な手法を提案する。
我々の戦略は、動詞、副詞、形容詞をその同義語と自動置換して、文の本来の意味を保存することである。
本手法は,モデルの性能が真の言語理解に基づくのか,それとも単にパターン認識に基づくのかを評価することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T02:03:28Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - SLING: Sino Linguistic Evaluation of Large Language Models [34.42512869432145]
Sling (Sino linguistics) は、中国語における38Kの最小文対を9つの高水準言語現象に分類する。
Sling 上で 18 個の事前訓練された単言語 (BERT-base-zh など) とマルチ言語 (mT5 や XLM など) の言語モデルをテストする。
実験の結果, LMの平均精度は人的性能(69.7%対97.1%)よりはるかに低いが, BERT-base-zhは試験されたLMの最大精度(84.8%)を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-21T02:29:39Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - CLiMP: A Benchmark for Chinese Language Model Evaluation [17.13061722469761]
中国語の言語最小対(CLiMP)のコーパスを紹介します。
climpはマンダリンにおける16の構文コントラストのための1000個の最小ペア(mps)で構成され、9つの主要なマンダリン言語現象をカバーする。
CLiMP上の11種類のLMを評価し,n-gram,LSTM,中国BERTについて検討した。
論文 参考訳(メタデータ) (2021-01-26T23:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。