論文の概要: NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for
Lexical Semantic Change in Diachronic Italian Corpora
- arxiv url: http://arxiv.org/abs/2011.03755v1
- Date: Sat, 7 Nov 2020 11:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 22:06:52.232908
- Title: NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for
Lexical Semantic Change in Diachronic Italian Corpora
- Title(参考訳): NLP-CIC @ DIACR-Ita: POSと近傍分布モデルによるダイアクロニックイタリアコーパスの語彙的意味変化
- Authors: Jason Angel, Carlos A. Rodriguez-Diaz, Alexander Gelbukh, Sergio
Jimenez
- Abstract要約: 本稿では,イタリア語に対する教師なし語彙意味変化のシステムと知見について述べる。
その課題は、対象の単語が時間とともにその意味を進化させたかどうかを判断することであり、それは2つの時間固有のデータセットからの原文のみに依存する。
本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present our systems and findings on unsupervised lexical semantic change
for the Italian language in the DIACR-Ita shared-task at EVALITA 2020. The task
is to determine whether a target word has evolved its meaning with time, only
relying on raw-text from two time-specific datasets. We propose two models
representing the target words across the periods to predict the changing words
using threshold and voting schemes. Our first model solely relies on
part-of-speech usage and an ensemble of distance measures. The second model
uses word embedding representation to extract the neighbor's relative distances
across spaces and propose "the average of absolute differences" to estimate
lexical semantic change. Our models achieved competent results, ranking third
in the DIACR-Ita competition. Furthermore, we experiment with the k_neighbor
parameter of our second model to compare the impact of using "the average of
absolute differences" versus the cosine distance used in Hamilton et al.
(2016).
- Abstract(参考訳): EVALITA 2020において,DIACR-Ita共有タスクにおけるイタリア語の語彙的意味変化に関するシステムと知見を述べる。
そのタスクは、目的語が時間とともにその意味を進化させたかどうかを判断することであり、2つの時間固有のデータセットからの生文のみに依存する。
本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。
私たちの最初のモデルは、一部使用と距離測定のアンサンブルのみに依存しています。
第2のモデルは単語埋め込み表現を用いて、空間をまたいだ隣人の相対距離を抽出し、語彙的意味変化を推定するために「絶対差の平均」を提案する。
我々のモデルは、DIACR-Itaコンペで3位にランクインした。
さらに、第2モデルのk_neighborパラメータを用いて、「絶対差の平均」を用いることによる影響と、ハミルトンらによるコサイン距離(2016年)を比較検討した。
関連論文リスト
- Semantic Change Detection for the Romanian Language [0.5202524136984541]
実世界のデータセット上に静的および文脈的単語埋め込みモデルを作成するための様々な戦略を分析する。
まず,英語データセット (SEMEVAL-CCOHA) とルーマニア語データセット (SEMEVAL-CCOHA) で単語埋め込みモデルの評価を行った。
実験結果から,コーパスによっては,モデルの選択と,意味的変化を検出するためのスコアを計算するための距離が最も重要な要因であることが示唆された。
論文 参考訳(メタデータ) (2023-08-23T13:37:02Z) - Unsupervised Semantic Variation Prediction using the Distribution of
Sibling Embeddings [17.803726860514193]
単語の意味的変化の検出は,様々なNLPアプリケーションにおいて重要な課題である。
意味表現だけではそのような意味的バリエーションを正確に捉えることはできないと我々は主張する。
対象単語の文脈的埋め込みのコホート全体を利用する手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:58:21Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Binary and Multitask Classification Model for Dutch Anaphora Resolution:
Die/Dat Prediction [18.309099448064273]
オランダ語の代名詞「ディー」と「ダット」の正しい用法は、オランダ語の母語話者と非母語話者の双方にとって不安定なブロックである。
本研究は,オランダ語実証および相対代名詞分解のための最初のニューラルネットワークモデルを構築した。
論文 参考訳(メタデータ) (2020-01-09T12:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。