論文の概要: Finding Variants for Construction-Based Dialectometry: A Corpus-Based
Approach to Regional CxGs
- arxiv url: http://arxiv.org/abs/2104.01299v1
- Date: Sat, 3 Apr 2021 02:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 02:30:38.586470
- Title: Finding Variants for Construction-Based Dialectometry: A Corpus-Based
Approach to Regional CxGs
- Title(参考訳): 構造に基づく弁証法における変種探索--コーパスに基づく地域cxgsへのアプローチ
- Authors: Jonathan Dunn
- Abstract要約: 本論文では,未知の構造を同定できる構造的方言測定法を開発した。
変動を受ける構造の集合を事前に制限することなく、地域CxG間の集合的類似度を測定する方法を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper develops a construction-based dialectometry capable of identifying
previously unknown constructions and measuring the degree to which a given
construction is subject to regional variation. The central idea is to learn a
grammar of constructions (a CxG) using construction grammar induction and then
to use these constructions as features for dialectometry. This offers a method
for measuring the aggregate similarity between regional CxGs without limiting
in advance the set of constructions subject to variation. The learned CxG is
evaluated on how well it describes held-out test corpora while dialectometry is
evaluated on how well it can model regional varieties of English. Themethod is
tested using two distinct datasets: First, the International Corpus of English
representing eight outer circle varieties; Second, a web-crawled corpus
representing five inner circle varieties. Results show that themethod (1)
produces a grammar with stable quality across sub-sets of a single corpus that
is (2) capable of distinguishing between regional varieties of Englishwith a
high degree of accuracy, thus (3) supporting dialectometricmethods formeasuring
the similarity between varieties of English and (4) measuring the degree to
which each construction is subject to regional variation. This is important for
cognitive sociolinguistics because it operationalizes the idea that competition
between constructions is organized at the functional level so that
dialectometry needs to represent as much of the available functional space as
possible.
- Abstract(参考訳): 本稿では, 既知構造を同定し, 所定の構成が局所的変動の対象となる程度を計測できる構築型弁証法を開発した。
中心となる考え方は、構成文法帰納法を用いて構成文法(CxG)を学習し、これらの構成を弁証法の特徴として利用することである。
これにより, 局所的なCxG間の集合類似度を, 変動を受ける構成の集合を予め制限することなく測定することができる。
学習したCxGはホールドアウトテストコーパスをどの程度うまく記述するかを評価する一方、弁証法は地域英語の多様性をいかにモデル化できるかを評価する。
Themethodは2つの異なるデータセットを用いてテストされている: まず、国際英語コーパスは8つの外円の変種を表す。
その結果,(1) は, 単一コーパスのサブセットにまたがる安定な品質の文法を生成し, (2) 高度に精度の高い地域英語の変種を識別できるため, (3) 英語の変種間の類似性を推定するための弁証法, (4) それぞれの構成が地域的変動の対象となる度合いを計測する。
これは認知社会言語学にとって重要である。なぜなら、構造間の競合は機能レベルで組織化され、弁証法が利用可能な機能空間をできるだけ多く表現する必要がある、という考えを運用するからである。
関連論文リスト
- Validating and Exploring Large Geographic Corpora [0.76146285961466]
ニュージーランド英語のような特定の言語国を表すサブコーパスの品質向上に3つの手法が用いられている。
評価の結果, サブコーパスの妥当性は清掃段階ごとに改善されているが, この改善は言語や人口に不均一に分散していることがわかった。
論文 参考訳(メタデータ) (2024-03-13T02:46:17Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Cross-corpus Readability Compatibility Assessment for English Texts [6.225179315266989]
本稿では,新たな評価フレームワークであるクロスコーパステキスト可読性評価を提案する。
このフレームワークは、コーパス:CEFR、CLEC、CLOTH、NES、OSP、RACEの3つの主要なコンポーネントを含んでいる。
この結果,OSPは他のデータセットと大きく異なっていた。
論文 参考訳(メタデータ) (2023-06-16T09:15:39Z) - The Better Your Syntax, the Better Your Semantics? Probing Pretrained
Language Models for the English Comparative Correlative [7.03497683558609]
Construction Grammar (CxG) は、文法と意味論の関連性を強調する認知言語学のパラダイムである。
我々は、最もよく研究されている構成のうちの1つ、英語比較相関(CC)を分類し、理解する能力について調査する。
以上の結果から,PLMは3つともCCの構造を認識することができるが,その意味は用いていないことが明らかとなった。
論文 参考訳(メタデータ) (2022-10-24T13:01:24Z) - Stability of Syntactic Dialect Classification Over Space and Time [0.0]
本稿では,12の方言を対象に,月々の間隔で3年間にまたがる英語の12の方言を対象に,1120都市にまたがる空間分布を定式化するテストセットを構築した。
各方言の分類性能の劣化率は時間とともに減少し,統語的変化を受ける地域を特定することができる。
また、方言領域における分類精度の分布により、方言の文法が内部的に不均一である程度を特定できる。
論文 参考訳(メタデータ) (2022-09-11T23:14:59Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Global Syntactic Variation in Seven Languages: Towards a Computational
Dialectology [0.0]
我々はComputational Construction Grammarを使って、複製可能で偽造可能な構文的特徴セットを提供する。
我々は,Webcrawledおよびソーシャルメディアデータセットに基づくグローバル言語マッピングを用いて,国産品種の選択を決定する。
その結果,構築文法を用いて各言語のモデルが保持したサンプルの領域を頑健に予測できることが判明した。
論文 参考訳(メタデータ) (2021-04-03T03:40:21Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。