論文の概要: Discovering Lexical Similarity Through Articulatory Feature-based
Phonetic Edit Distance
- arxiv url: http://arxiv.org/abs/2008.06865v1
- Date: Sun, 16 Aug 2020 09:28:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 09:14:18.457754
- Title: Discovering Lexical Similarity Through Articulatory Feature-based
Phonetic Edit Distance
- Title(参考訳): 調音特徴に基づく音声編集距離による語彙類似性の検出
- Authors: Tafseer Ahmed, Muhammad Suffian Nizami, Muhammad Yaseen Khan
- Abstract要約: 2つの言語間の語彙的類似(LS)は多くの興味深い言語的洞察を明らかにする。
本稿では音声編集距離(PED)について述べる。
PEDはそれに関連する調音的特徴を用いて文字をソフトに比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lexical Similarity (LS) between two languages uncovers many interesting
linguistic insights such as genetic relationship, mutual intelligibility, and
the usage of one's vocabulary into other. There are various methods through
which LS is evaluated. In the same regard, this paper presents a method of
Phonetic Edit Distance (PED) that uses a soft comparison of letters using the
articulatory features associated with them. The system converts the words into
the corresponding International Phonetic Alphabet (IPA), followed by the
conversion of IPA into its set of articulatory features. Later, the lists of
the set of articulatory features are compared using the proposed method. As an
example, PED gives edit distance of German word vater and Persian word pidar as
0.82; and similarly, Hebrew word shalom and Arabic word salaam as 0.93, whereas
for a juxtapose comparison, their IPA based edit distances are 4 and 2
respectively. Experiments are performed with six languages (Arabic, Hindi,
Marathi, Persian, Sanskrit, and Urdu). In this regard, we extracted part of
speech wise word-lists from the Universal Dependency corpora and evaluated the
LS for every pair of language. Thus, with the proposed approach, we find the
genetic affinity, similarity, and borrowing/loan-words despite having script
differences and sound variation phenomena among these languages.
- Abstract(参考訳): 2つの言語間の語彙類似性(LS)は、遺伝的関係、相互の知性、語彙の他への使用など、多くの興味深い言語的洞察を明らかにする。
LSを評価する方法は様々である。
そこで,本稿では,音素の編集距離(ped)について,音韻的特徴を用いて文字のソフトな比較を行う方法を提案する。
このシステムは、単語を対応する国際音声アルファベット(IPA)に変換し、次にIPAの音声特徴に変換する。
その後,提案手法を用いて調音特徴の集合のリストを比較した。
例えば、ped はドイツ語のvater とペルシア語の pidar の編集距離を 0.82、ヘブライ語の shalom と arabic の salaam を 0.93、juxtapose の比較では ipa ベースの編集距離が 4 と 2 である。
6つの言語(アラビア語、ヒンディー語、マラタイ語、ペルシア語、サンスクリット語、ウルドゥー語)で実験が行われる。
そこで我々は,Universal Dependency corporaから音声単語リストの一部を抽出し,各言語に対するLSを評価した。
そこで,提案手法では,これらの言語間にスクリプトの違いや音の変動現象があるにもかかわらず,遺伝的親和性,類似性,借用/借用/貸出語が認められた。
関連論文リスト
- Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。
複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。
多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文 参考訳(メタデータ) (2023-07-31T14:29:06Z) - PESTS: Persian_English Cross Lingual Corpus for Semantic Textual
Similarity [6.113459147063378]
言語間セマンティック類似性モデルでは、言語間セマンティック類似性データセットが利用できないため、機械翻訳を用いる。
ペルシャ語は低資源言語の1つであり、二つの言語の文脈を理解できるモデルの必要性は、これまで以上に感じられる。
本稿では,ペルシア語と英語の文間の意味的類似性のコーパスを,言語専門家を用いて初めて作成した。
論文 参考訳(メタデータ) (2023-05-13T11:02:50Z) - Low-resource Bilingual Dialect Lexicon Induction with Large Language
Models [24.080565202390314]
バイエルン方言とアレマン方言の2つの方言について,バイリンガル語彙誘導パイプラインの解析を行った。
この設定は、リソースの不足、言語の関連性、方言の正書法における標準化の欠如など、いくつかの課題を引き起こす。
論文 参考訳(メタデータ) (2023-04-19T20:20:41Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Deciphering Undersegmented Ancient Scripts Using Phonetic Prior [31.707254394215283]
ほとんどの未解読失語言語は、重要な解読課題を引き起こす2つの特徴を持っている。
豊かな言語制約を基礎として,これらの課題に対処するモデルを提案する。
我々は、解読された言語(ゴシック語、ウガル語)と未解読言語(イベリア語)の両方でモデルを評価する。
論文 参考訳(メタデータ) (2020-10-21T15:03:52Z) - Speakers Fill Lexical Semantic Gaps with Context [69.30534067031734]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z) - Synchronous Bidirectional Learning for Multilingual Lip Reading [99.14744013265594]
すべての言語の唇の動きは、人間の器官の共通構造によって類似したパターンを共有している。
音素はアルファベットよりも唇の動きと密接に関連している。
新しいSBLブロックが提案され、各言語の規則を補充的に学習する。
論文 参考訳(メタデータ) (2020-05-08T04:19:57Z) - Phonotactic Complexity and its Trade-offs [73.10961848460613]
この単純な測度により、言語間のエントロピーを比較することができる。
音素あたりのビット数と単語の平均長との間には-0.74の非常に強い負の相関関係を示す。
論文 参考訳(メタデータ) (2020-05-07T21:36:59Z) - Language-Independent Tokenisation Rivals Language-Specific Tokenisation
for Word Similarity Prediction [12.376752724719005]
言語に依存しないトークン化(LIT)メソッドはラベル付き言語リソースや語彙を必要としない。
言語固有のトークン化(LST)手法は、長い歴史と確立された歴史を持ち、慎重に作成された語彙とトレーニングリソースを用いて開発されている。
意味的類似度測定を多種多様な言語を対象とした評価課題として用いた2つの手法を実証的に比較した。
論文 参考訳(メタデータ) (2020-02-25T16:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。