論文の概要: Syntactic Language Change in English and German: Metrics, Parsers, and Convergences
- arxiv url: http://arxiv.org/abs/2402.11549v2
- Date: Thu, 28 Mar 2024 11:16:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 20:52:50.491446
- Title: Syntactic Language Change in English and German: Metrics, Parsers, and Convergences
- Title(参考訳): 英語とドイツ語の統語的言語変化:計量, パーサー, 収束
- Authors: Yanran Chen, Wei Zhao, Anne Breitbarth, Manuel Stoeckel, Alexander Mehler, Steffen Eger,
- Abstract要約: 本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
- 参考スコア(独自算出の注目度): 56.47832275431858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many studies have shown that human languages tend to optimize for lower complexity and increased communication efficiency. Syntactic dependency distance, which measures the linear distance between dependent words, is often considered a key indicator of language processing difficulty and working memory load. The current paper looks at diachronic trends in syntactic language change in both English and German, using corpora of parliamentary debates from the last c. 160 years. We base our observations on five dependency parsers, including the widely used Stanford CoreNLP as well as 4 newer alternatives. Our analysis of syntactic language change goes beyond linear dependency distance and explores 15 metrics relevant to dependency distance minimization (DDM) and/or based on tree graph properties, such as the tree height and degree variance. Even though we have evidence that recent parsers trained on modern treebanks are not heavily affected by data 'noise' such as spelling changes and OCR errors in our historic data, we find that results of syntactic language change are sensitive to the parsers involved, which is a caution against using a single parser for evaluating syntactic language change as done in previous work. We also show that syntactic language change over the time period investigated is largely similar between English and German for the different metrics explored: only 4% of cases we examine yield opposite conclusions regarding upwards and downtrends of syntactic metrics across German and English. We also show that changes in syntactic measures seem to be more frequent at the tails of sentence length distributions. To our best knowledge, ours is the most comprehensive analysis of syntactic language change using modern NLP technology in recent corpora of English and German.
- Abstract(参考訳): 多くの研究で、人間の言語は複雑さの低減と通信効率の向上のために最適化される傾向があることが示されている。
依存語間の線形距離を測定する構文依存距離は、言語処理の難易度や作業記憶負荷の指標となることが多い。
本論文は,前回のC言語論争のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
160年。
私たちは、広く使われているStanford CoreNLPと4つの新しい代替品を含む5つの依存性パーサをベースとしています。
構文言語の変化の分析は, 線形依存性距離を超えるもので, 依存性距離最小化(DDM)および/または木の高さや次数分散といった木グラフ特性に基づく15の指標を探索する。
最近の木バンクで訓練されたパーサーは,スペル変化やOCRエラーなどのデータ「ノイズ」の影響を受けない証拠があるが,構文言語変化の結果は関連するパーサーに敏感であり,構文言語変化を評価するために単一のパーサーを使用することに注意が必要である。
また、調査期間中の構文言語の変化は、調査対象の異なる指標について、英語とドイツ語で大きく類似していることも示している。
また,文長分布の尾部では,構文的尺度の変化が頻繁であることが示唆された。
我々の知る限りでは、近年の英語とドイツ語のコーパスにおける近代的NLP技術を用いた構文言語変化の包括的分析が最も重要である。
関連論文リスト
- Integrating Supertag Features into Neural Discontinuous Constituent Parsing [0.0]
伝統的な選挙区の見解では、構成要素は隣接した単語で構成されており、ドイツ語のような言語で一般的である。
トランジションベースの構文解析は、大きな注釈付きコーパス上で教師あり学習を用いて生のテキストを入力した木を生成する。
論文 参考訳(メタデータ) (2024-10-11T12:28:26Z) - Correlation Does Not Imply Compensation: Complexity and Irregularity in the Lexicon [48.00488140516432]
形態的不規則性と音韻的複雑性との間に正の相関が認められた。
また,単語長と形態的不規則性の負の関係の弱い証拠も見出した。
論文 参考訳(メタデータ) (2024-06-07T18:09:21Z) - Multipath parsing in the brain [4.605070569473395]
人間は言葉ごとの文章を聴く順番で理解する。
本研究では,音声ブックを聴きながら機能的ニューロイメージングを行う人々の時系列データと,段階的依存からの予測を関連づけることで,これらの構文的あいまいさを人間がどのように処理するかを検討する。
英語と中国語の両方でマルチパス解析の証拠が見つかる。このマルチパス効果に関連する脳領域には、両側上側頭回を含む。
論文 参考訳(メタデータ) (2024-01-31T18:07:12Z) - DEMETR: Diagnosing Evaluation Metrics for Translation [21.25704103403547]
我々は、英語31K例の診断データセットであるDEMETRをリリースする。
学習指標はDEMETRの文字列ベースの指標よりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-25T03:25:44Z) - Do Not Fire the Linguist: Grammatical Profiles Help Language Models
Detect Semantic Change [6.7485485663645495]
まず,10個のデータセット上での多言語ニューラル言語モデル(XLM-R)の性能を比較し,その性能を7つの言語で比較した。
この結果から,XLM-Rによる文法プロファイルのアンサンブルにより,ほとんどのデータセットや言語における意味変化検出性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-04-12T11:20:42Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Linguistic dependencies and statistical dependence [76.89273585568084]
文脈における単語の確率を推定するために,事前学習した言語モデルを用いる。
最大CPMI木は非文脈PMI推定値から抽出した木よりも言語的依存関係によく対応していることがわかった。
論文 参考訳(メタデータ) (2021-04-18T02:43:37Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - A Tale of a Probe and a Parser [74.14046092181947]
言語のニューラルモデルにエンコードされている言語情報の計測は、NLPで人気が高まっている。
研究者は、他のモデルの出力から言語構造を抽出するために設計された教師付きモデル"プローブ"をトレーニングすることで、この企業にアプローチする。
そのようなプローブの1つは、構文情報が文脈化された単語表現でエンコードされる範囲を定量化するために設計された構造プローブである。
論文 参考訳(メタデータ) (2020-05-04T16:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。