論文の概要: Tracking Semantic Change in Slovene: A Novel Dataset and Optimal Transport-Based Distance
- arxiv url: http://arxiv.org/abs/2402.16596v2
- Date: Wed, 28 May 2025 13:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:49.965826
- Title: Tracking Semantic Change in Slovene: A Novel Dataset and Optimal Transport-Based Distance
- Title(参考訳): スロベニアにおけるセマンティックな変化の追跡 : 新たなデータセットと最適輸送に基づく距離
- Authors: Marko Pranjić, Kaja Dobrovoljc, Senja Pollak, Matej Martinc,
- Abstract要約: 我々は、200万人の話者を持つあまりリソースの乏しいスラヴ語であるSloveneにおける意味的変化の検出に焦点をあてる。
セマンティックチェンジ検出システムを評価するための最初のSloveneデータセットを提案する。
本稿では, セマンティックな変化を定量化するための, より堅牢なフレームワークを提供する, 正規化された最適輸送に基づく新しい計量法を提案する。
- 参考スコア(独自算出の注目度): 4.330529287808277
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we focus on the detection of semantic changes in Slovene, a less resourced Slavic language with two million speakers. Detecting and tracking semantic changes provides insight into the evolution of language caused by changes in society and culture. We present the first Slovene dataset for evaluating semantic change detection systems, which contains aggregated semantic change scores for 104 target words obtained from more than 3,000 manually annotated sentence pairs. We analyze an important class of measures of semantic change metrics based on the Average pairwise distance and identify several limitations. To address these limitations, we propose a novel metric based on regularized optimal transport, which offers a more robust framework for quantifying semantic change. We provide a comprehensive evaluation of various existing semantic change detection methods and associated semantic change measures on our dataset. Through empirical testing, we demonstrate that our proposed approach, leveraging regularized optimal transport, achieves either matching or improved performance compared to baseline approaches.
- Abstract(参考訳): 本稿では,200万人の話者を持つ低資源のスラヴ語であるSloveneにおける意味変化の検出に焦点を当てた。
意味の変化を検出し、追跡することは、社会や文化の変化によって引き起こされる言語進化の洞察を与える。
3000以上の注釈付き文対から得られた104のターゲット語に対する意味変化スコアを集約した意味変化検出システムを評価するための最初のスロベニアデータセットを提案する。
平均的対距離に基づく意味変化指標の重要な尺度を解析し,いくつかの制約を同定する。
これらの制約に対処するため、我々は、セマンティックな変化を定量化するためのより堅牢なフレームワークを提供する、正規化された最適輸送に基づく新しいメトリクスを提案する。
本稿では,既存の意味変化検出手法と関連する意味変化検出手法を包括的に評価する。
実験により, 提案手法は, 正規化された最適輸送を生かし, 整合性, 性能向上の両立を実証した。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Graph-based Clustering for Detecting Semantic Change Across Time and
Languages [10.058655884092094]
本稿では,高頻度・低周波両方の単語知覚におけるニュアンス変化を時間的・言語的に捉えたグラフベースのクラスタリング手法を提案する。
提案手法は,4言語にわたるSemEval 2020バイナリ分類タスクにおいて,従来のアプローチを大幅に上回っている。
論文 参考訳(メタデータ) (2024-02-01T21:27:19Z) - Semantic Change Detection for the Romanian Language [0.5202524136984541]
実世界のデータセット上に静的および文脈的単語埋め込みモデルを作成するための様々な戦略を分析する。
まず,英語データセット (SEMEVAL-CCOHA) とルーマニア語データセット (SEMEVAL-CCOHA) で単語埋め込みモデルの評価を行った。
実験結果から,コーパスによっては,モデルの選択と,意味的変化を検出するためのスコアを計算するための距離が最も重要な要因であることが示唆された。
論文 参考訳(メタデータ) (2023-08-23T13:37:02Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Contextualized language models for semantic change detection: lessons
learned [4.436724861363513]
本稿では,ダイアクロニック・セマンティック・チェンジを検出する文脈的埋め込みに基づく手法の出力の質的分析を行う。
本研究の結果から,文脈化手法は,実際のダイアクロニック・セマンティック・シフトを行なわない単語に対して,高い変化スコアを予測できることが示唆された。
我々の結論は、事前学習された文脈化言語モデルは、語彙感覚の変化と文脈分散の変化を補う傾向にあるということである。
論文 参考訳(メタデータ) (2022-08-31T23:35:24Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Lexical Semantic Change Discovery [22.934650688233734]
本稿では,変化検出から変化発見へのシフト,すなわち全語彙から新しい単語感覚を発見することを提案する。
最近公開されたドイツのデータに対して,型ベースおよびトークンベースのアプローチを高度に微調整することにより,両モデルが変化を意味づける新しい単語の発見に成功できることを実証する。
論文 参考訳(メタデータ) (2021-06-06T13:02:38Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z) - Unsupervised Cross-lingual Adaptation for Sequence Tagging and Beyond [58.80417796087894]
多言語事前訓練言語モデル(mPTLM)による言語間適応は、主にゼロショットアプローチと翻訳に基づくアプローチの2行からなる。
本稿では、ゼロショットアプローチと翻訳に基づくアプローチを統合し、適応性能を向上させるための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-23T13:47:01Z) - SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection [10.606357227329822]
評価は、現在、レキシカルセマンティック・チェンジ検出において最も差し迫った問題である。
コミュニティにとって金の基準は存在せず、進歩を妨げている。
このギャップに対処する最初の共有タスクの結果を示す。
論文 参考訳(メタデータ) (2020-07-22T14:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。