論文の概要: Do Not Fire the Linguist: Grammatical Profiles Help Language Models
Detect Semantic Change
- arxiv url: http://arxiv.org/abs/2204.05717v1
- Date: Tue, 12 Apr 2022 11:20:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 19:45:46.176306
- Title: Do Not Fire the Linguist: Grammatical Profiles Help Language Models
Detect Semantic Change
- Title(参考訳): 文法的プロファイルは言語モデルが意味的変化を検出するのに役立つ
- Authors: Mario Giulianelli, Andrey Kutuzov, Lidia Pivovarova
- Abstract要約: まず,10個のデータセット上での多言語ニューラル言語モデル(XLM-R)の性能を比較し,その性能を7つの言語で比較した。
この結果から,XLM-Rによる文法プロファイルのアンサンブルにより,ほとんどのデータセットや言語における意味変化検出性能が向上することが示唆された。
- 参考スコア(独自算出の注目度): 6.7485485663645495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Morphological and syntactic changes in word usage (as captured, e.g., by
grammatical profiles) have been shown to be good predictors of a word's meaning
change. In this work, we explore whether large pre-trained contextualised
language models, a common tool for lexical semantic change detection, are
sensitive to such morphosyntactic changes. To this end, we first compare the
performance of grammatical profiles against that of a multilingual neural
language model (XLM-R) on 10 datasets, covering 7 languages, and then combine
the two approaches in ensembles to assess their complementarity. Our results
show that ensembling grammatical profiles with XLM-R improves semantic change
detection performance for most datasets and languages. This indicates that
language models do not fully cover the fine-grained morphological and syntactic
signals that are explicitly represented in grammatical profiles.
An interesting exception are the test sets where the time spans under
analysis are much longer than the time gap between them (for example,
century-long spans with a one-year gap between them). Morphosyntactic change is
slow so grammatical profiles do not detect in such cases. In contrast, language
models, thanks to their access to lexical information, are able to detect fast
topical changes.
- Abstract(参考訳): 単語使用の形態的および構文的変化(例えば、文法的プロファイルによって捉えられる)は、単語の意味変化の優れた予測因子であることが示されている。
本研究では,語彙的意味変化検出の一般的なツールである事前学習型言語モデルが,このような形態的変化に敏感であるかどうかを考察する。
この目的のために、まず10個のデータセット上の多言語ニューラル言語モデル(XLM-R)の性能を比較し、7つの言語をカバーし、2つのアプローチをアンサンブルに組み合わせて相補性を評価する。
その結果,XLM-Rによる文法プロファイルのアンサンブルにより,ほとんどのデータセットや言語における意味変化検出性能が向上することがわかった。
これは、言語モデルが文法的プロファイルで明示的に表されるきめ細かい形態的および構文的シグナルを完全にカバーしていないことを示している。
興味深い例外は、分析対象の時間間隔が、それらの間の時間間隔よりもはるかに長いテストセットである(例えば、1年間隔の1世紀の長さ)。
モルフォシンタクティックな変化は遅いので、文法的なプロファイルはそのような場合には検出しない。
対照的に、語彙情報へのアクセスによる言語モデルは、高速な話題の変更を検出することができる。
関連論文リスト
- Why do language models perform worse for morphologically complex languages? [0.913127392774573]
凝集型言語と融合型言語のパフォーマンスギャップを示す新たな証拠が発見された。
この性能ギャップの原因として, トークン化剤の形態的アライメント, トークン化品質, データセットサイズと測定の差異の3つが考えられる。
以上の結果から,言語モデルが形態的類型学に基づいて学習することが困難あるいは容易な言語は存在しないことが示唆された。
論文 参考訳(メタデータ) (2024-11-21T15:06:51Z) - Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Improving Temporal Generalization of Pre-trained Language Models with
Lexical Semantic Change [28.106524698188675]
近年の研究では、大規模なニューラルネットワークモデルが時間的一般化能力の低下に悩まされていることが明らかになっている。
本稿では,収束した言語モデルを学習後処理するための,単純かつ効果的な語彙レベルのマスキング手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T08:12:41Z) - Contextualized language models for semantic change detection: lessons
learned [4.436724861363513]
本稿では,ダイアクロニック・セマンティック・チェンジを検出する文脈的埋め込みに基づく手法の出力の質的分析を行う。
本研究の結果から,文脈化手法は,実際のダイアクロニック・セマンティック・シフトを行なわない単語に対して,高い変化スコアを予測できることが示唆された。
我々の結論は、事前学習された文脈化言語モデルは、語彙感覚の変化と文脈分散の変化を補う傾向にあるということである。
論文 参考訳(メタデータ) (2022-08-31T23:35:24Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Grammatical Profiling for Semantic Change Detection [6.3596637237946725]
文法的プロファイリングを意味変化検出の代替手法として用いている。
意味的変化の検出に使用することができ、また、いくつかの分布的意味的手法よりも優れていることを実証する。
論文 参考訳(メタデータ) (2021-09-21T18:38:18Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Word Frequency Does Not Predict Grammatical Knowledge in Language Models [2.1984302611206537]
言語モデルの精度には,系統的な変化源が存在するかを検討する。
特定の名詞は他の名詞よりも体系的によく理解されており、文法的タスクや異なる言語モデルに対して頑健である。
名詞の文法的特性は,様々な訓練データからほとんど学習されないことが判明した。
論文 参考訳(メタデータ) (2020-10-26T19:51:36Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。