論文の概要: Discovering Lexical Similarity Through Articulatory Feature-based
Phonetic Edit Distance
- arxiv url: http://arxiv.org/abs/2008.06865v1
- Date: Sun, 16 Aug 2020 09:28:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 09:14:18.457754
- Title: Discovering Lexical Similarity Through Articulatory Feature-based
Phonetic Edit Distance
- Title(参考訳): 調音特徴に基づく音声編集距離による語彙類似性の検出
- Authors: Tafseer Ahmed, Muhammad Suffian Nizami, Muhammad Yaseen Khan
- Abstract要約: 2つの言語間の語彙的類似(LS)は多くの興味深い言語的洞察を明らかにする。
本稿では音声編集距離(PED)について述べる。
PEDはそれに関連する調音的特徴を用いて文字をソフトに比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lexical Similarity (LS) between two languages uncovers many interesting
linguistic insights such as genetic relationship, mutual intelligibility, and
the usage of one's vocabulary into other. There are various methods through
which LS is evaluated. In the same regard, this paper presents a method of
Phonetic Edit Distance (PED) that uses a soft comparison of letters using the
articulatory features associated with them. The system converts the words into
the corresponding International Phonetic Alphabet (IPA), followed by the
conversion of IPA into its set of articulatory features. Later, the lists of
the set of articulatory features are compared using the proposed method. As an
example, PED gives edit distance of German word vater and Persian word pidar as
0.82; and similarly, Hebrew word shalom and Arabic word salaam as 0.93, whereas
for a juxtapose comparison, their IPA based edit distances are 4 and 2
respectively. Experiments are performed with six languages (Arabic, Hindi,
Marathi, Persian, Sanskrit, and Urdu). In this regard, we extracted part of
speech wise word-lists from the Universal Dependency corpora and evaluated the
LS for every pair of language. Thus, with the proposed approach, we find the
genetic affinity, similarity, and borrowing/loan-words despite having script
differences and sound variation phenomena among these languages.
- Abstract(参考訳): 2つの言語間の語彙類似性(LS)は、遺伝的関係、相互の知性、語彙の他への使用など、多くの興味深い言語的洞察を明らかにする。
LSを評価する方法は様々である。
そこで,本稿では,音素の編集距離(ped)について,音韻的特徴を用いて文字のソフトな比較を行う方法を提案する。
このシステムは、単語を対応する国際音声アルファベット(IPA)に変換し、次にIPAの音声特徴に変換する。
その後,提案手法を用いて調音特徴の集合のリストを比較した。
例えば、ped はドイツ語のvater とペルシア語の pidar の編集距離を 0.82、ヘブライ語の shalom と arabic の salaam を 0.93、juxtapose の比較では ipa ベースの編集距離が 4 と 2 である。
6つの言語(アラビア語、ヒンディー語、マラタイ語、ペルシア語、サンスクリット語、ウルドゥー語)で実験が行われる。
そこで我々は,Universal Dependency corporaから音声単語リストの一部を抽出し,各言語に対するLSを評価した。
そこで,提案手法では,これらの言語間にスクリプトの違いや音の変動現象があるにもかかわらず,遺伝的親和性,類似性,借用/借用/貸出語が認められた。
関連論文リスト
- Entropy and type-token ratio in gigaword corpora [0.0]
本研究では,英語,スペイン語,トルコ語の6つの大規模言語データセットにおいて,語彙の多様性を示す2つの指標であるエントロピーとテキストトケン比について検討した。
コーパスを横切るエントロピーとテキスト-トケン比の関数的関係が検討されている。
この結果は,テキスト構造の理論的理解に寄与し,自然言語処理などの分野に実践的な意味を与える。
論文 参考訳(メタデータ) (2024-11-15T14:40:59Z) - The Development of a Comprehensive Spanish Dictionary for Phonetic and Lexical Tagging in Socio-phonetic Research (ESPADA) [0.0]
スペイン語の方言の変種の大部分で使用可能な、スペイン語の包括的な発音辞書(ESPADA)の作成について紹介する。
ESPADAは16か国の単語を表わす628,000以上のエントリを持つ最も完全な辞書である。
これは、スペイン語の社会音声学の枠組みにおける方言研究を強化する完全なオープンソースツールを社会音声学研究者に提供することを目的としている。
論文 参考訳(メタデータ) (2024-07-22T04:51:33Z) - Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。
複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。
多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文 参考訳(メタデータ) (2023-07-31T14:29:06Z) - PESTS: Persian_English Cross Lingual Corpus for Semantic Textual Similarity [5.439505575097552]
言語間セマンティック類似性モデルでは、言語間セマンティック類似性データセットが利用できないため、機械翻訳を用いる。
ペルシャ語は低資源言語の1つであり、二つの言語の文脈を理解できるモデルの必要性は、これまで以上に感じられる。
本稿では,ペルシア語と英語の文間の意味的類似性のコーパスを,言語専門家を用いて初めて作成した。
論文 参考訳(メタデータ) (2023-05-13T11:02:50Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Deciphering Undersegmented Ancient Scripts Using Phonetic Prior [31.707254394215283]
ほとんどの未解読失語言語は、重要な解読課題を引き起こす2つの特徴を持っている。
豊かな言語制約を基礎として,これらの課題に対処するモデルを提案する。
我々は、解読された言語(ゴシック語、ウガル語)と未解読言語(イベリア語)の両方でモデルを評価する。
論文 参考訳(メタデータ) (2020-10-21T15:03:52Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z) - Synchronous Bidirectional Learning for Multilingual Lip Reading [99.14744013265594]
すべての言語の唇の動きは、人間の器官の共通構造によって類似したパターンを共有している。
音素はアルファベットよりも唇の動きと密接に関連している。
新しいSBLブロックが提案され、各言語の規則を補充的に学習する。
論文 参考訳(メタデータ) (2020-05-08T04:19:57Z) - Phonotactic Complexity and its Trade-offs [73.10961848460613]
この単純な測度により、言語間のエントロピーを比較することができる。
音素あたりのビット数と単語の平均長との間には-0.74の非常に強い負の相関関係を示す。
論文 参考訳(メタデータ) (2020-05-07T21:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。