論文の概要: Global Syntactic Variation in Seven Languages: Towards a Computational
Dialectology
- arxiv url: http://arxiv.org/abs/2104.01306v1
- Date: Sat, 3 Apr 2021 03:40:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 02:29:28.776316
- Title: Global Syntactic Variation in Seven Languages: Towards a Computational
Dialectology
- Title(参考訳): 7言語におけるグローバル・シンタクティックな変化--計算辞書を目指して
- Authors: Jonathan Dunn
- Abstract要約: 我々はComputational Construction Grammarを使って、複製可能で偽造可能な構文的特徴セットを提供する。
我々は,Webcrawledおよびソーシャルメディアデータセットに基づくグローバル言語マッピングを用いて,国産品種の選択を決定する。
その結果,構築文法を用いて各言語のモデルが保持したサンプルの領域を頑健に予測できることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of this paper is to provide a complete representation of regional
linguistic variation on a global scale. To this end, the paper focuses on
removing three constraints that have previously limited work within
dialectology/dialectometry. First, rather than assuming a fixed and incomplete
set of variants, we use Computational Construction Grammar to provide a
replicable and falsifiable set of syntactic features. Second, rather than
assuming a specific area of interest, we use global language mapping based on
web-crawled and social media datasets to determine the selection of national
varieties. Third, rather than looking at a single language in isolation, we
model seven major languages together using the same methods: Arabic, English,
French, German, Portuguese, Russian, and Spanish. Results show that models for
each language are able to robustly predict the region-of-origin of held-out
samples better using Construction Grammars than using simpler syntactic
features. These global-scale experiments are used to argue that new methods in
computational sociolinguistics are able to provide more generalized models of
regional variation that are essential for understanding language variation and
change at scale.
- Abstract(参考訳): 本研究の目的は,グローバルスケールでの地域言語変化の完全な表現を提供することである。
そこで本研究では,これまで方言・方言学に限られていた3つの制約を取り除くことに焦点を当てた。
まず,固定的かつ不完全な変種集合を仮定する代わりに,計算構成文法を用いて,構文特徴の複製可能かつ偽造可能な集合を提供する。
第2に、特定の関心領域を仮定するのではなく、Webcrawledおよびソーシャルメディアデータセットに基づくグローバル言語マッピングを用いて、国産品種の選択を決定する。
第3に、一つの言語を単独で見るのではなく、アラビア語、英語、フランス語、ドイツ語、ポルトガル語、ロシア語、スペイン語の7つの主要言語を同じ手法でモデル化する。
その結果,各言語のモデルは,より単純な構文的特徴を用いることよりも,コンストラクション文法を用いて保留サンプルの領域を確実に予測できることがわかった。
これらのグローバルスケールの実験は、計算社会言語学の新しい手法は、言語の変化や大規模変化を理解するのに不可欠な、より一般化された地域的変動モデルを提供することができると主張している。
関連論文リスト
- Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement [1.4335183427838039]
我々は,特定の特性を持つ大規模でキュレートされた合成データを開発するためのアプローチを採っている。
我々は、ブラックバード言語行列(Blackbird Language Matrices)と呼ばれる新しい複数選択タスクとデータセットを使用して、特定の文法構造現象に焦点を当てる。
多言語テキストを一貫した方法で訓練したにもかかわらず、多言語事前学習言語モデルには言語固有の違いがあることが示される。
論文 参考訳(メタデータ) (2024-09-10T14:58:55Z) - Are Structural Concepts Universal in Transformer Language Models?
Towards Interpretable Cross-Lingual Generalization [27.368684663279463]
本稿では,言語間の概念対応を明確に整合させ,言語間の一般化を促進する可能性について検討する。
言語構文の側面をテストベッドとして,43言語を解析した結果,高い整合性を示した。
本稿では,メタラーニングに基づく概念空間の整合学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-19T14:50:51Z) - Universal and Independent: Multilingual Probing Framework for Exhaustive
Model Interpretation and Evaluation [0.04199844472131922]
多数の言語を簡単に探索できるGUI支援フレームワークを提案し,適用した。
mBERTモデルで明らかになった規則性のほとんどは、西欧語で典型的である。
私たちのフレームワークは,既存のプローブツールボックスやモデルカード,リーダボードと統合することができます。
論文 参考訳(メタデータ) (2022-10-24T13:41:17Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。