論文の概要: Semantic Change Detection for the Romanian Language
- arxiv url: http://arxiv.org/abs/2308.12131v1
- Date: Wed, 23 Aug 2023 13:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 14:07:05.505893
- Title: Semantic Change Detection for the Romanian Language
- Title(参考訳): ルーマニア語における意味変化検出
- Authors: Ciprian-Octavian Truic\u{a}, Victor Tudose and Elena-Simona Apostol
- Abstract要約: 実世界のデータセット上に静的および文脈的単語埋め込みモデルを作成するための様々な戦略を分析する。
まず,英語データセット (SEMEVAL-CCOHA) とルーマニア語データセット (SEMEVAL-CCOHA) で単語埋め込みモデルの評価を行った。
実験結果から,コーパスによっては,モデルの選択と,意味的変化を検出するためのスコアを計算するための距離が最も重要な要因であることが示唆された。
- 参考スコア(独自算出の注目度): 0.5202524136984541
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic semantic change methods try to identify the changes that appear
over time in the meaning of words by analyzing their usage in diachronic
corpora. In this paper, we analyze different strategies to create static and
contextual word embedding models, i.e., Word2Vec and ELMo, on real-world
English and Romanian datasets. To test our pipeline and determine the
performance of our models, we first evaluate both word embedding models on an
English dataset (SEMEVAL-CCOHA). Afterward, we focus our experiments on a
Romanian dataset, and we underline different aspects of semantic changes in
this low-resource language, such as meaning acquisition and loss. The
experimental results show that, depending on the corpus, the most important
factors to consider are the choice of model and the distance to calculate a
score for detecting semantic change.
- Abstract(参考訳): 自動意味変化法は,単語の意味に時間とともに現れる変化をダイアクロニックコーパスで解析することによって識別しようとする。
本稿では,実世界の英語とルーマニア語のデータセット上で,静的および文脈的単語埋め込みモデル(word2vecとelmo)を作成するための様々な戦略を分析する。
パイプラインのテストとモデルの性能を決定するため,まず英語データセット(SEMEVAL-CCOHA)上の単語埋め込みモデルを評価した。
その後、ルーマニアのデータセットに実験を集中させ、この低リソース言語における意味獲得や損失といった意味的変化の異なる側面を強調する。
実験結果から,コーパスによっては,モデルの選択と,意味的変化を検出するためのスコアを計算するための距離が最も重要な要因であることが示唆された。
関連論文リスト
- Examining Language Modeling Assumptions Using an Annotated Literary Dialect Corpus [0.0]
19世紀のアメリカの文学的変種トークンのデータセットを,人間の注釈付き方言群タグの新たな層で提示する。
意図的な正書法変化によって生じる「方言効果」が複数の言語チャネルを取り入れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T16:58:21Z) - Linguistic Fingerprint in Transformer Models: How Language Variation Influences Parameter Selection in Irony Detection [1.5807079236265718]
本研究の目的は、異なる英語のバリエーションが、皮肉検出のためのトランスフォーマーベースモデルにどのように影響するかを検討することである。
以上の結果から, 言語的差異が強い言語的差異と, より大きな相違点を示す言語的差異との類似性が示唆された。
本研究は、同一言語の異なる変種に基づいて訓練されたモデル間の構造的類似点と、これらのニュアンスを捉える際のパラメータ値の重要な役割を強調した。
論文 参考訳(メタデータ) (2024-06-04T14:09:36Z) - Exploring Tokenization Strategies and Vocabulary Sizes for Enhanced Arabic Language Models [0.0]
本稿では,アラビア語モデルの性能に及ぼすトークン化戦略と語彙サイズの影響について検討する。
本研究は, 語彙サイズがモデルサイズを一定に保ちながら, モデル性能に及ぼす影響を限定的に明らかにした。
論文のレコメンデーションには、方言の課題に対処するためのトークン化戦略の洗練、多様な言語コンテキストにわたるモデルの堅牢性の向上、リッチな方言ベースのアラビア語を含むデータセットの拡大が含まれる。
論文 参考訳(メタデータ) (2024-03-17T07:44:44Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for
Lexical Semantic Change in Diachronic Italian Corpora [62.997667081978825]
本稿では,イタリア語に対する教師なし語彙意味変化のシステムと知見について述べる。
その課題は、対象の単語が時間とともにその意味を進化させたかどうかを判断することであり、それは2つの時間固有のデータセットからの原文のみに依存する。
本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。
論文 参考訳(メタデータ) (2020-11-07T11:27:18Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。