論文の概要: Semantic change detection for Slovene language: a novel dataset and an
approach based on optimal transport
- arxiv url: http://arxiv.org/abs/2402.16596v1
- Date: Mon, 26 Feb 2024 14:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 20:41:29.387221
- Title: Semantic change detection for Slovene language: a novel dataset and an
approach based on optimal transport
- Title(参考訳): スロベニア語における意味変化検出--新しいデータセットと最適トランスポートに基づくアプローチ
- Authors: Marko Pranji\'c (1 and 2), Kaja Dobrovoljc (1), Senja Pollak (1),
Matej Martinc (1) ((1) Jo\v{z}ef Stefan Institute, Ljubljana, Slovenia, (2)
Jo\v{z}ef Stefan International Postgraduate School, Ljubljana, Slovenia)
- Abstract要約: 我々は、200万人の話者を持つあまりリソースの乏しいスラヴ語であるSloveneにおける意味的変化の検出に焦点をあてる。
セマンティックチェンジ検出システムを評価するための最初のSloveneデータセットを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we focus on the detection of semantic changes in Slovene, a
less resourced Slavic language with two million speakers. Detecting and
tracking semantic changes provides insights into the evolution of the language
caused by changes in society and culture. Recently, several systems have been
proposed to aid in this study, but all depend on manually annotated gold
standard datasets for evaluation. In this paper, we present the first Slovene
dataset for evaluating semantic change detection systems, which contains
aggregated semantic change scores for 104 target words obtained from more than
3000 manually annotated sentence pairs. We evaluate several existing semantic
change detection methods on this dataset and also propose a novel approach
based on optimal transport that improves on the existing state-of-the-art
systems with an error reduction rate of 22.8%.
- Abstract(参考訳): 本稿では,200万人の話者を持つ低資源のスラヴ語であるSloveneにおける意味変化の検出に焦点を当てた。
意味的変化の検出と追跡は、社会と文化の変化によって引き起こされる言語の進化に関する洞察を提供する。
近年,この研究を支援するシステムをいくつか提案されているが,すべて手作業による金標準データセットによる評価である。
本稿では,3000以上の注釈付き文対から得られた104語の意味変化スコアを集約した意味変化検出システムを評価するための最初のスロベニアデータセットを提案する。
このデータセット上で既存の意味変化検出手法を評価し,22.8%の誤差低減率で既存の最先端システムを改善する最適輸送に基づく新しい手法を提案する。
関連論文リスト
- Graph-based Clustering for Detecting Semantic Change Across Time and
Languages [10.058655884092094]
本稿では,高頻度・低周波両方の単語知覚におけるニュアンス変化を時間的・言語的に捉えたグラフベースのクラスタリング手法を提案する。
提案手法は,4言語にわたるSemEval 2020バイナリ分類タスクにおいて,従来のアプローチを大幅に上回っている。
論文 参考訳(メタデータ) (2024-02-01T21:27:19Z) - Semantic Change Detection for the Romanian Language [0.5202524136984541]
実世界のデータセット上に静的および文脈的単語埋め込みモデルを作成するための様々な戦略を分析する。
まず,英語データセット (SEMEVAL-CCOHA) とルーマニア語データセット (SEMEVAL-CCOHA) で単語埋め込みモデルの評価を行った。
実験結果から,コーパスによっては,モデルの選択と,意味的変化を検出するためのスコアを計算するための距離が最も重要な要因であることが示唆された。
論文 参考訳(メタデータ) (2023-08-23T13:37:02Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Contextualized language models for semantic change detection: lessons
learned [4.436724861363513]
本稿では,ダイアクロニック・セマンティック・チェンジを検出する文脈的埋め込みに基づく手法の出力の質的分析を行う。
本研究の結果から,文脈化手法は,実際のダイアクロニック・セマンティック・シフトを行なわない単語に対して,高い変化スコアを予測できることが示唆された。
我々の結論は、事前学習された文脈化言語モデルは、語彙感覚の変化と文脈分散の変化を補う傾向にあるということである。
論文 参考訳(メタデータ) (2022-08-31T23:35:24Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Lexical Semantic Change Discovery [22.934650688233734]
本稿では,変化検出から変化発見へのシフト,すなわち全語彙から新しい単語感覚を発見することを提案する。
最近公開されたドイツのデータに対して,型ベースおよびトークンベースのアプローチを高度に微調整することにより,両モデルが変化を意味づける新しい単語の発見に成功できることを実証する。
論文 参考訳(メタデータ) (2021-06-06T13:02:38Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z) - Unsupervised Cross-lingual Adaptation for Sequence Tagging and Beyond [58.80417796087894]
多言語事前訓練言語モデル(mPTLM)による言語間適応は、主にゼロショットアプローチと翻訳に基づくアプローチの2行からなる。
本稿では、ゼロショットアプローチと翻訳に基づくアプローチを統合し、適応性能を向上させるための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-23T13:47:01Z) - SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection [10.606357227329822]
評価は、現在、レキシカルセマンティック・チェンジ検出において最も差し迫った問題である。
コミュニティにとって金の基準は存在せず、進歩を妨げている。
このギャップに対処する最初の共有タスクの結果を示す。
論文 参考訳(メタデータ) (2020-07-22T14:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。