論文の概要: Computational Approaches for Integrating out Subjectivity in Cognate Synonym Selection
- arxiv url: http://arxiv.org/abs/2404.19328v2
- Date: Wed, 5 Jun 2024 15:56:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 00:20:37.860159
- Title: Computational Approaches for Integrating out Subjectivity in Cognate Synonym Selection
- Title(参考訳): Cognate Synonym Selectionにおける主観性統合のための計算的アプローチ
- Authors: Luise Häuser, Gerhard Jäger, Alexandros Stamatakis,
- Abstract要約: 言語系統学の初期において、一つの同義語のみを選択することが推奨された。
バイナリ文字行列は、すべての同義語を含むデータセット全体を表現することができることを示す。
また、CLDFフォーマットで提供されるコグネートデータに対して、上記のすべてのキャラクタマトリックスタイプを生成するためのPythonインターフェースも提供しています。
- 参考スコア(独自算出の注目度): 45.14832807541816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Working with cognate data involves handling synonyms, that is, multiple words that describe the same concept in a language. In the early days of language phylogenetics it was recommended to select one synonym only. However, as we show here, binary character matrices, which are used as input for computational methods, do allow for representing the entire dataset including all synonyms. Here we address the question how one can and if one should include all synonyms or whether it is preferable to select synonyms a priori. To this end, we perform maximum likelihood tree inferences with the widely used RAxML-NG tool and show that it yields plausible trees when all synonyms are used as input. Furthermore, we show that a priori synonym selection can yield topologically substantially different trees and we therefore advise against doing so. To represent cognate data including all synonyms, we introduce two types of character matrices beyond the standard binary ones: probabilistic binary and probabilistic multi-valued character matrices. We further show that it is dataset-dependent for which character matrix type the inferred RAxML-NG tree is topologically closest to the gold standard. We also make available a Python interface for generating all of the above character matrix types for cognate data provided in CLDF format.
- Abstract(参考訳): コグネートデータを扱うには、同義語、つまり言語で同じ概念を記述する複数の単語を扱う必要がある。
言語系統学の初期において、一つの同義語のみを選択することが推奨された。
しかし、ここで示すように、計算手法の入力として使用されるバイナリ文字行列は、すべての同義語を含むデータセット全体を表現することができる。
ここでは、どのようにしてすべての同義語を含めるべきか、あるいは前科を選択すべきかどうかという疑問に対処する。
この目的のために、広く使われているRAxML-NGツールを用いて最大木推定を行い、すべての同義語を入力として使用する場合に可塑性木を生成することを示す。
さらに, 前代同義語選択は, トポロジカルに大きく異なる木を産出できることを示す。
すべての同義語を含む同義語データを表現するために、確率的二元数行列と確率的多値文字行列という、標準的な二元数行列以外の2種類の文字行列を導入する。
さらに, 推定されたRAxML-NG木がゴールド標準に最も近いキャラクタリマトリクスは, データセット依存であることを示す。
また、CLDFフォーマットで提供されるコグネートデータに対して、上記のすべてのキャラクタマトリックスタイプを生成するためのPythonインターフェースも提供しています。
関連論文リスト
- Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - A Benchmark and Scoring Algorithm for Enriching Arabic Synonyms [0.0]
モノ/マルチリンガルシンセットとしきい値(ファジィ値[0-1])が与えられた場合、我々のゴールは既存のレキシコンからこのしきい値の上に新しい同義語を抽出することである。
データセットは500シンセットの3K候補シノニムで構成されている。
評価の結果,アルゴリズムは言語学者のように振る舞うことができ,ファジィ値は言語学者が提案したものに近いことがわかった。
論文 参考訳(メタデータ) (2023-02-04T20:30:32Z) - Chinese Word Sense Embedding with SememeWSD and Synonym Set [17.37973450772783]
本稿では,多文単語のすべての感覚に異なるベクトルを割り当てるために,SememeWSD Synonym(SWSDS)モデルを提案する。
OpenHowNetから単語センスの上位10の同義語を取得し、単語センスのベクトルとして同義語の平均ベクトルを算出する。
実験では,Gensimのwmdistance法を用いて意味的類似性計算におけるSWSDSモデルの評価を行った。
論文 参考訳(メタデータ) (2022-06-29T03:42:03Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - SemGloVe: Semantic Co-occurrences for GloVe from BERT [55.420035541274444]
GloVeは単語共起行列からの統計情報を利用して単語埋め込みを学ぶ。
BERTから静的なGloVeワード埋め込みに意味的共起を蒸留するSemGloVeを提案します。
論文 参考訳(メタデータ) (2020-12-30T15:38:26Z) - PBoS: Probabilistic Bag-of-Subwords for Generalizing Word Embedding [16.531103175919924]
単語の埋め込みを一般化する作業について検討する。
有限語彙上の事前訓練された単語ベクトルの集合が与えられた場合、その目標は語彙外単語に対する埋め込みベクトルを予測することである。
サブワードセグメント化を同時にモデル化し,サブワードをベースとした合成単語の埋め込みを計算できるモデルを提案する。
論文 参考訳(メタデータ) (2020-10-21T08:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。