論文の概要: A Graph Diffusion Algorithm for Lexical Similarity Evaluation
- arxiv url: http://arxiv.org/abs/2504.06816v1
- Date: Wed, 09 Apr 2025 12:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:45.974547
- Title: A Graph Diffusion Algorithm for Lexical Similarity Evaluation
- Title(参考訳): 語彙類似性評価のためのグラフ拡散アルゴリズム
- Authors: Karol Mikula, Mariana Sarkociová Remešíková,
- Abstract要約: 本稿では,ある言語と複数の参照言語クラスタ間の語彙的類似性を評価するアルゴリズムを提案する。
それぞれの概念に対して、アルゴリズムはそれぞれの翻訳間の距離を計算する。
このアルゴリズムは、多言語領域で話される言語間の関係を多くの相互影響で分析するのに有用である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper, we present an algorithm for evaluating lexical similarity between a given language and several reference language clusters. As an input, we have a list of concepts and the corresponding translations in all considered languages. Moreover, each reference language is assigned to one of $c$ language clusters. For each of the concepts, the algorithm computes the distance between each pair of translations. Based on these distances, it constructs a weighted directed graph, where every vertex represents a language. After, it solves a graph diffusion equation with a Dirichlet boundary condition, where the unknown is a map from the vertex set to $\mathbb{R}^c$. The resulting coordinates are values from the interval $[0,1]$ and they can be interpreted as probabilities of belonging to each of the clusters or as a lexical similarity distribution with respect to the reference clusters. The distances between translations are calculated using phonetic transcriptions and a modification of the Damerau-Levenshtein distance. The algorithm can be useful in analyzing relationships between languages spoken in multilingual territories with a lot of mutual influences. We demonstrate this by presenting a case study regarding various European languages.
- Abstract(参考訳): 本稿では,ある言語と複数の参照言語クラスタ間の語彙的類似性を評価するアルゴリズムを提案する。
入力として、すべての考慮された言語における概念と対応する翻訳のリストがある。
さらに、各参照言語は$c$の言語クラスタの1つに割り当てられる。
それぞれの概念に対して、アルゴリズムはそれぞれの翻訳間の距離を計算する。
これらの距離に基づいて、すべての頂点が言語を表す重み付き有向グラフを構成する。
その後、ディリクレ境界条件でグラフ拡散方程式を解くが、未知は頂点集合から$\mathbb{R}^c$への写像である。
結果として得られる座標は、間隔$[0,1]$の値であり、各クラスタに属する確率、または参照クラスタに対する語彙的類似性分布と解釈できる。
翻訳間の距離は音素の書き起こしとダマラウ・レブンシュテイン距離の修正を用いて計算される。
このアルゴリズムは、多言語領域で話される言語間の関係を多くの相互影響で分析するのに有用である。
ヨーロッパ諸言語に関するケーススタディを提示することでこれを実証する。
関連論文リスト
- An Ad-hoc graph node vector embedding algorithm for general knowledge graphs using Kinetica-Graph [0.0]
本稿では,知識グラフ表現から一般的なグラフノードの埋め込みを生成する方法について論じる。
埋め込み空間は、局所親和性とリモート構造関連性の両方を模倣するいくつかのサブ機能から構成される。
論文 参考訳(メタデータ) (2024-07-22T14:43:10Z) - Exploring language relations through syntactic distances and geographic proximity [0.4369550829556578]
ユニバーサル依存データセットから抽出した音声の一連の部分(POS)を用いて言語間距離を探索する。
特定の形態的類型によって説明される例外を除いて、よく知られた言語族やグループに対応する定型クラスタが見つかる。
論文 参考訳(メタデータ) (2024-03-27T10:36:17Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Agglomerative Clustering of Handwritten Numerals to Determine Similarity
of Different Languages [0.0]
抽出された数字の特徴を解析することにより、言語の類似度と相違度を測定することができる。
手書きの数字データセットは、異なる地域の多くの有名な言語で利用可能である。
論文 参考訳(メタデータ) (2020-11-22T04:36:25Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - SpellGCN: Incorporating Phonological and Visual Similarities into
Language Models for Chinese Spelling Check [28.446849414110297]
中国語のスペルチェック(英語: Chinese Spelling Check, CSC)は、中国語のスペルエラーを検出し、訂正するタスクである。
既存の手法では、漢字間の類似性に関する知識を取り入れようと試みている。
本稿では,特殊グラフ畳み込みネットワーク(SpellGCN)を用いて,CSCの言語モデルに音韻的・視覚的類似性を取り入れることを提案する。
論文 参考訳(メタデータ) (2020-04-26T03:34:06Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z) - Markov Chain Monte-Carlo Phylogenetic Inference Construction in
Computational Historical Linguistics [0.0]
現代では、歴史言語学研究の伝統的な方法がいくつかの課題に直面しているため、世界中でますます多くの言語が研究されている。
本稿では,計算手法を用いて言語をクラスタリングし,マルコフ・チェイン・モンテカルロ(MCMC)法を用いて言語型関係木を構築する。
論文 参考訳(メタデータ) (2020-02-22T06:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。