論文の概要: Refining Targeted Syntactic Evaluation of Language Models
- arxiv url: http://arxiv.org/abs/2104.09635v1
- Date: Mon, 19 Apr 2021 20:55:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:44:37.936815
- Title: Refining Targeted Syntactic Evaluation of Language Models
- Title(参考訳): 言語モデルの精製対象構文評価
- Authors: Benjamin Newman, Kai-Siang Ang, Julia Gong and John Hewitt
- Abstract要約: 英語における主語数合意の目標構文評価(TSE)
言語モデルが各文法文を非文法文よりも高い確率で評価するかどうかを評価する。
TSEは、言語モデルの体系性を過大評価しているが、モデルが予測する動詞のスコアが40%向上することは、文脈において起こりそうだ。
- 参考スコア(独自算出の注目度): 6.991281327290524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Targeted syntactic evaluation of subject-verb number agreement in English
(TSE) evaluates language models' syntactic knowledge using hand-crafted minimal
pairs of sentences that differ only in the main verb's conjugation. The method
evaluates whether language models rate each grammatical sentence as more likely
than its ungrammatical counterpart. We identify two distinct goals for TSE.
First, evaluating the systematicity of a language model's syntactic knowledge:
given a sentence, can it conjugate arbitrary verbs correctly? Second,
evaluating a model's likely behavior: given a sentence, does the model
concentrate its probability mass on correctly conjugated verbs, even if only on
a subset of the possible verbs? We argue that current implementations of TSE do
not directly capture either of these goals, and propose new metrics to capture
each goal separately. Under our metrics, we find that TSE overestimates
systematicity of language models, but that models score up to 40% better on
verbs that they predict are likely in context.
- Abstract(参考訳): 英語における主語-動詞数合意(tse)の統語的評価は、主動詞の活用のみで異なる手作りの最小文対を用いて言語モデルの統語的知識を評価する。
本手法は,各文法文を非文法文よりも高い確率で評価する。
TSEの目標は2つある。
まず、言語モデルの構文的知識の体系性を評価する:ある文が与えられたら、任意の動詞を正しく共役できるか?
第二に、モデルの起こりそうな振る舞いを評価する:ある文が与えられたとき、モデルは正しい共役動詞にその確率質量を集中させるだろうか。
現在のtseの実装では、これらの目標のいずれかを直接捉えておらず、それぞれの目標を別々に捉えるための新しいメトリクスを提案している。
我々の測定では、TSEは言語モデルの体系性を過大評価しているが、予測される動詞では最大40%のスコアが得られた。
関連論文リスト
- Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - ProsAudit, a prosodic benchmark for self-supervised speech models [14.198508548718676]
ProsAuditは、自己教師付き学習(SSL)音声モデルにおける構造的韻律的知識を評価するためのベンチマークである。
2つのサブタスク、対応するメトリクス、評価データセットで構成される。
論文 参考訳(メタデータ) (2023-02-23T14:30:23Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Introducing Syntactic Structures into Target Opinion Word Extraction
with Deep Learning [89.64620296557177]
目的語抽出のためのディープラーニングモデルに文の構文構造を組み込むことを提案する。
また,ディープラーニングモデルの性能向上のために,新たな正規化手法を導入する。
提案モデルは,4つのベンチマークデータセット上での最先端性能を広範囲に解析し,達成する。
論文 参考訳(メタデータ) (2020-10-26T07:13:17Z) - Are Some Words Worth More than Others? [3.5598388686985354]
簡単な単語予測タスクの枠組み内での2つの本質的な評価手法を提案する。
提案手法を用いて,広く使用されている大規模英語モデルの評価を行った。
論文 参考訳(メタデータ) (2020-10-12T23:12:11Z) - Labeling Explicit Discourse Relations using Pre-trained Language Models [0.0]
最先端のモデルは手作りの機能を使ってFスコアの45%をわずかに上回っている。
事前訓練された言語モデルは、微調整された場合、言語的特徴を置き換えるのに十分強力であることがわかった。
言語的な特徴を使わずに、モデルが知識集約型モデルより優れているのは、これが初めてである。
論文 参考訳(メタデータ) (2020-06-21T17:18:01Z) - Cross-Linguistic Syntactic Evaluation of Word Prediction Models [25.39896327641704]
本稿では,ニューラルワード予測モデルの文法学習能力が言語によってどう異なるかを検討する。
CLAMSには、英語、フランス語、ドイツ語、ヘブライ語、ロシア語のサブバーブ協定の課題セットが含まれている。
CLAMSを用いてLSTM言語モデルと単言語および多言語BERTの評価を行う。
論文 参考訳(メタデータ) (2020-05-01T02:51:20Z) - Recurrent Neural Network Language Models Always Learn English-Like
Relative Clause Attachment [17.995905582226463]
英語とスペイン語のモデル性能を比較し,RNN LMにおける非言語的バイアスが英語の構文構造と有利に重なることを示す。
英語モデルは人間に似た構文的嗜好を習得しているように見えるが、スペイン語で訓練されたモデルは、同等の人間的な嗜好を取得できない。
論文 参考訳(メタデータ) (2020-05-01T01:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。