論文の概要: The Syntactic Acceptability Dataset (Preview): A Resource for Machine Learning and Linguistic Analysis of English
- arxiv url: http://arxiv.org/abs/2506.18120v1
- Date: Sun, 22 Jun 2025 18:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.758095
- Title: The Syntactic Acceptability Dataset (Preview): A Resource for Machine Learning and Linguistic Analysis of English
- Title(参考訳): Syntactic Acceptability Dataset(概要) : 英語の機械学習と言語分析のためのリソース
- Authors: Tom S Juzek,
- Abstract要約: 本稿では,Syntactic Acceptabilityデータセットのプレビューを紹介する。
データセットは、構文談話から1000の英語シーケンスから構成される。
予備的な形式であっても、このデータセットは一般にアクセス可能なものとして最大である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a preview of the Syntactic Acceptability Dataset, a resource being designed for both syntax and computational linguistics research. In its current form, the dataset comprises 1,000 English sequences from the syntactic discourse: Half from textbooks and half from the journal Linguistic Inquiry, the latter to ensure a representation of the contemporary discourse. Each entry is labeled with its grammatical status ("well-formedness" according to syntactic formalisms) extracted from the literature, as well as its acceptability status ("intuitive goodness" as determined by native speakers) obtained through crowdsourcing, with highest experimental standards. Even in its preliminary form, this dataset stands as the largest of its kind that is publicly accessible. We also offer preliminary analyses addressing three debates in linguistics and computational linguistics: We observe that grammaticality and acceptability judgments converge in about 83% of the cases and that "in-betweenness" occurs frequently. This corroborates existing research. We also find that while machine learning models struggle with predicting grammaticality, they perform considerably better in predicting acceptability. This is a novel finding. Future work will focus on expanding the dataset.
- Abstract(参考訳): 本稿では,構文解析と計算言語学の研究のためのリソースであるSyntactic Acceptability Datasetのプレビューを紹介する。
現在の形式では、このデータセットは、統語論から1000の英語のシーケンスで構成されている: 教科書から半分、雑誌Linguistic Inquiryから半分、後者は同時代の言説の表現を保証するためである。
各項目は、文献から抽出した文法的地位(文法的形式主義による「良い形式」)と、クラウドソーシングによって得られた受容性地位(ネイティブ話者によって決定される直感的善意)と、最も実験的な基準によってラベル付けされる。
予備的な形式であっても、このデータセットは一般にアクセス可能なものとして最大である。
我々はまた、言語学と計算言語学の3つの議論に対処する予備的な分析を提示する: 文法性および受容可能性判断は、約83%のケースに収束し、「間近性」が頻繁に発生するのを観察する。
これは既存の研究を裏付けるものだ。
また、機械学習モデルは文法性の予測に苦慮する一方で、受容可能性の予測においてかなり優れた性能を発揮することも見出した。
これは新しい発見です。
今後はデータセットの拡張に重点を置く予定だ。
関連論文リスト
- Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - A Linguistic Investigation of Machine Learning based Contradiction
Detection Models: An Empirical Analysis and Future Perspectives [0.34998703934432673]
本稿では,2つの自然言語推論データセットについて,その言語的特徴について分析する。
目標は、特に機械学習モデルを理解するのが難しい、構文的および意味的特性を特定することである。
論文 参考訳(メタデータ) (2022-10-19T10:06:03Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - The Rediscovery Hypothesis: Language Models Need to Meet Linguistics [8.293055016429863]
現代言語モデルの性能向上に言語知識が必須条件であるかどうかを検討する。
その結果, 言語構造を探索した場合, かなり圧縮されるが, 事前学習目的によく適合する言語モデルは, 良好なスコアを保っていることがわかった。
この結果は再発見仮説を支持し,本論文の第2の貢献である言語モデル目標と言語情報との関連性に関する情報論的枠組みを導出する。
論文 参考訳(メタデータ) (2021-03-02T15:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。