Fugu-MT 論文翻訳(概要): The Syntactic Acceptability Dataset (Preview): A Resource for Machine Learning and Linguistic Analysis of English

論文の概要: The Syntactic Acceptability Dataset (Preview): A Resource for Machine Learning and Linguistic Analysis of English

arxiv url: http://arxiv.org/abs/2506.18120v1
Date: Sun, 22 Jun 2025 18:03:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.758095
Title: The Syntactic Acceptability Dataset (Preview): A Resource for Machine Learning and Linguistic Analysis of English
Title（参考訳）: Syntactic Acceptability Dataset(概要) : 英語の機械学習と言語分析のためのリソース
Authors: Tom S Juzek,
Abstract要約: 本稿では,Syntactic Acceptabilityデータセットのプレビューを紹介する。データセットは、構文談話から1000の英語シーケンスから構成される。予備的な形式であっても、このデータセットは一般にアクセス可能なものとして最大である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present a preview of the Syntactic Acceptability Dataset, a resource being designed for both syntax and computational linguistics research. In its current form, the dataset comprises 1,000 English sequences from the syntactic discourse: Half from textbooks and half from the journal Linguistic Inquiry, the latter to ensure a representation of the contemporary discourse. Each entry is labeled with its grammatical status ("well-formedness" according to syntactic formalisms) extracted from the literature, as well as its acceptability status ("intuitive goodness" as determined by native speakers) obtained through crowdsourcing, with highest experimental standards. Even in its preliminary form, this dataset stands as the largest of its kind that is publicly accessible. We also offer preliminary analyses addressing three debates in linguistics and computational linguistics: We observe that grammaticality and acceptability judgments converge in about 83% of the cases and that "in-betweenness" occurs frequently. This corroborates existing research. We also find that while machine learning models struggle with predicting grammaticality, they perform considerably better in predicting acceptability. This is a novel finding. Future work will focus on expanding the dataset.
Abstract（参考訳）: 本稿では,構文解析と計算言語学の研究のためのリソースであるSyntactic Acceptability Datasetのプレビューを紹介する。現在の形式では、このデータセットは、統語論から1000の英語のシーケンスで構成されている: 教科書から半分、雑誌Linguistic Inquiryから半分、後者は同時代の言説の表現を保証するためである。各項目は、文献から抽出した文法的地位(文法的形式主義による「良い形式」)と、クラウドソーシングによって得られた受容性地位(ネイティブ話者によって決定される直感的善意)と、最も実験的な基準によってラベル付けされる。予備的な形式であっても、このデータセットは一般にアクセス可能なものとして最大である。我々はまた、言語学と計算言語学の3つの議論に対処する予備的な分析を提示する: 文法性および受容可能性判断は、約83%のケースに収束し、「間近性」が頻繁に発生するのを観察する。これは既存の研究を裏付けるものだ。また、機械学習モデルは文法性の予測に苦慮する一方で、受容可能性の予測においてかなり優れた性能を発揮することも見出した。これは新しい発見です。今後はデータセットの拡張に重点を置く予定だ。

関連論文リスト

Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文参考訳（メタデータ） (2025-05-26T07:21:20Z)
Large corpora and large language models: a replicable method for automating grammatical annotation [0.0]
英語評価動詞構築における形式的変化の事例研究に応用された方法論的パイプライン「consider X (as) (to be) Y」を紹介する。少数のトレーニングデータだけで、保留中のテストサンプルで90%以上の精度でモデルに到達します。本研究は, 文法的構成と文法的変化および変化に関する幅広いケーススタディに対して, 結果の一般化可能性について論じる。
論文参考訳（メタデータ） (2024-11-18T03:29:48Z)
Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文参考訳（メタデータ） (2024-05-08T00:18:56Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)
Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文参考訳（メタデータ） (2023-05-29T16:24:01Z)
A Linguistic Investigation of Machine Learning based Contradiction Detection Models: An Empirical Analysis and Future Perspectives [0.34998703934432673]
本稿では,2つの自然言語推論データセットについて,その言語的特徴について分析する。目標は、特に機械学習モデルを理解するのが難しい、構文的および意味的特性を特定することである。
論文参考訳（メタデータ） (2022-10-19T10:06:03Z)
A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文参考訳（メタデータ） (2022-01-20T15:01:12Z)
The Rediscovery Hypothesis: Language Models Need to Meet Linguistics [8.293055016429863]
現代言語モデルの性能向上に言語知識が必須条件であるかどうかを検討する。その結果, 言語構造を探索した場合, かなり圧縮されるが, 事前学習目的によく適合する言語モデルは, 良好なスコアを保っていることがわかった。この結果は再発見仮説を支持し,本論文の第2の貢献である言語モデル目標と言語情報との関連性に関する情報論的枠組みを導出する。
論文参考訳（メタデータ） (2021-03-02T15:57:39Z)
Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文参考訳（メタデータ） (2020-12-10T01:27:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。