Fugu-MT 論文翻訳(概要): Discovering Lexical Similarity Through Articulatory Feature-based Phonetic Edit Distance

論文の概要: Discovering Lexical Similarity Through Articulatory Feature-based Phonetic Edit Distance

arxiv url: http://arxiv.org/abs/2008.06865v1
Date: Sun, 16 Aug 2020 09:28:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-28 09:14:18.457754
Title: Discovering Lexical Similarity Through Articulatory Feature-based Phonetic Edit Distance
Title（参考訳）: 調音特徴に基づく音声編集距離による語彙類似性の検出
Authors: Tafseer Ahmed, Muhammad Suffian Nizami, Muhammad Yaseen Khan
Abstract要約: 2つの言語間の語彙的類似(LS)は多くの興味深い言語的洞察を明らかにする。本稿では音声編集距離(PED)について述べる。 PEDはそれに関連する調音的特徴を用いて文字をソフトに比較する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Lexical Similarity (LS) between two languages uncovers many interesting linguistic insights such as genetic relationship, mutual intelligibility, and the usage of one's vocabulary into other. There are various methods through which LS is evaluated. In the same regard, this paper presents a method of Phonetic Edit Distance (PED) that uses a soft comparison of letters using the articulatory features associated with them. The system converts the words into the corresponding International Phonetic Alphabet (IPA), followed by the conversion of IPA into its set of articulatory features. Later, the lists of the set of articulatory features are compared using the proposed method. As an example, PED gives edit distance of German word vater and Persian word pidar as 0.82; and similarly, Hebrew word shalom and Arabic word salaam as 0.93, whereas for a juxtapose comparison, their IPA based edit distances are 4 and 2 respectively. Experiments are performed with six languages (Arabic, Hindi, Marathi, Persian, Sanskrit, and Urdu). In this regard, we extracted part of speech wise word-lists from the Universal Dependency corpora and evaluated the LS for every pair of language. Thus, with the proposed approach, we find the genetic affinity, similarity, and borrowing/loan-words despite having script differences and sound variation phenomena among these languages.
Abstract（参考訳）: 2つの言語間の語彙類似性(LS)は、遺伝的関係、相互の知性、語彙の他への使用など、多くの興味深い言語的洞察を明らかにする。 LSを評価する方法は様々である。そこで,本稿では,音素の編集距離(ped)について,音韻的特徴を用いて文字のソフトな比較を行う方法を提案する。このシステムは、単語を対応する国際音声アルファベット(IPA)に変換し、次にIPAの音声特徴に変換する。その後,提案手法を用いて調音特徴の集合のリストを比較した。例えば、ped はドイツ語のvater とペルシア語の pidar の編集距離を 0.82、ヘブライ語の shalom と arabic の salaam を 0.93、juxtapose の比較では ipa ベースの編集距離が 4 と 2 である。 6つの言語(アラビア語、ヒンディー語、マラタイ語、ペルシア語、サンスクリット語、ウルドゥー語)で実験が行われる。そこで我々は,Universal Dependency corporaから音声単語リストの一部を抽出し,各言語に対するLSを評価した。そこで,提案手法では,これらの言語間にスクリプトの違いや音の変動現象があるにもかかわらず,遺伝的親和性,類似性,借用/借用/貸出語が認められた。

関連論文リスト

Happiness is Sharing a Vocabulary: A Study of Transliteration Methods [11.101903956523094]
翻訳は多言語NLPにおける様々な言語間のギャップを埋めるための有望な手段として登場した。共用スクリプト,重複するトークン語彙,共有音韻が多言語モデルの性能に与える影響について検討する。
論文参考訳（メタデータ） (2025-10-12T22:34:40Z)
Make Every Letter Count: Building Dialect Variation Dictionaries from Monolingual Corpora [38.54622638611305]
我々はバイエルン語をケーススタディとして用い,Large Language Models(LLMs)の語彙的方言理解能力について検討する。単言語データのみから方言変化辞書を生成するための新しいアノテーションフレームワークであるDiaLemmaを使用している。我々は、9つの最先端のLLMがバイエルン語を、方言の翻訳、動詞の変種、あるいは与えられたドイツの補題の無関係な形式として、いかにうまく判断できるかを評価する。
論文参考訳（メタデータ） (2025-09-22T14:49:08Z)
PhoniTale: Phonologically Grounded Mnemonic Generation for Typologically Distant Language Pairs [51.745816131869674]
大規模言語モデル (LLM) は、学習者の第一言語 (L1) から類似したキーワードを活用して、L2語彙の獲得を支援することで、キーワード・メニーモニックを生成するために使われている。本稿では,IPAに基づく音韻的適応と音節認識アライメントを実行し,L1キーワードシーケンスを検索する新しい言語間メタモニック生成システムであるPhoniTaleを提案する。以上の結果から,PhoniTaleは従来の自動手法を一貫して上回り,人手によるメニーモニックに匹敵する品質を実現していることがわかった。
論文参考訳（メタデータ） (2025-07-07T19:50:12Z)
Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文参考訳（メタデータ） (2025-05-26T07:21:20Z)
Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing [19.6191088446367]
本研究は、英語・スペイン語・英語・フランス語・英語・ドイツ語のコニャート、非コニャート、および言語間ホモグラフに焦点を当てる。我々は,多言語大言語モデル (LLM) がこのような現象にどう対処するかを,英語・スペイン語・英語・フランス語・英語・ドイツ語のコニャート,非コニャート,言語間ホモグラフに焦点をあてて評価する。我々は、英語と非英語のホモグラフを理解するための異なる戦略を選択するモデルを見つけ、言語間のあいまいさを扱う統一的なアプローチが欠如していることを強調した。
論文参考訳（メタデータ） (2025-01-15T20:22:35Z)
Entropy and type-token ratio in gigaword corpora [0.0]
本研究では,英語,スペイン語,トルコ語の6つの大規模言語データセットにおいて,語彙の多様性を示す2つの指標であるエントロピーとテキストトケン比について検討した。コーパスを横切るエントロピーとテキスト-トケン比の関数的関係が検討されている。この結果は,テキスト構造の理論的理解に寄与し,自然言語処理などの分野に実践的な意味を与える。
論文参考訳（メタデータ） (2024-11-15T14:40:59Z)
The Development of a Comprehensive Spanish Dictionary for Phonetic and Lexical Tagging in Socio-phonetic Research (ESPADA) [0.0]
スペイン語の方言の変種の大部分で使用可能な、スペイン語の包括的な発音辞書(ESPADA)の作成について紹介する。 ESPADAは16か国の単語を表わす628,000以上のエントリを持つ最も完全な辞書である。これは、スペイン語の社会音声学の枠組みにおける方言研究を強化する完全なオープンソースツールを社会音声学研究者に提供することを目的としている。
論文参考訳（メタデータ） (2024-07-22T04:51:33Z)
Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文参考訳（メタデータ） (2023-07-31T14:29:06Z)
PESTS: Persian_English Cross Lingual Corpus for Semantic Textual Similarity [5.439505575097552]
言語間セマンティック類似性モデルでは、言語間セマンティック類似性データセットが利用できないため、機械翻訳を用いる。ペルシャ語は低資源言語の1つであり、二つの言語の文脈を理解できるモデルの必要性は、これまで以上に感じられる。本稿では,ペルシア語と英語の文間の意味的類似性のコーパスを,言語専門家を用いて初めて作成した。
論文参考訳（メタデータ） (2023-05-13T11:02:50Z)
A Massively Multilingual Analysis of Cross-linguality in Shared Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文参考訳（メタデータ） (2021-09-13T21:05:37Z)
Fake it Till You Make it: Self-Supervised Semantic Shifts for Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。 3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文参考訳（メタデータ） (2021-01-30T18:59:43Z)
Deciphering Undersegmented Ancient Scripts Using Phonetic Prior [31.707254394215283]
ほとんどの未解読失語言語は、重要な解読課題を引き起こす2つの特徴を持っている。豊かな言語制約を基礎として,これらの課題に対処するモデルを提案する。我々は、解読された言語(ゴシック語、ウガル語)と未解読言語(イベリア語)の両方でモデルを評価する。
論文参考訳（メタデータ） (2020-10-21T15:03:52Z)
Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文参考訳（メタデータ） (2020-10-05T17:19:10Z)
Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文参考訳（メタデータ） (2020-08-06T18:25:18Z)
Synchronous Bidirectional Learning for Multilingual Lip Reading [99.14744013265594]
すべての言語の唇の動きは、人間の器官の共通構造によって類似したパターンを共有している。音素はアルファベットよりも唇の動きと密接に関連している。新しいSBLブロックが提案され、各言語の規則を補充的に学習する。
論文参考訳（メタデータ） (2020-05-08T04:19:57Z)
Phonotactic Complexity and its Trade-offs [73.10961848460613]
この単純な測度により、言語間のエントロピーを比較することができる。音素あたりのビット数と単語の平均長との間には-0.74の非常に強い負の相関関係を示す。
論文参考訳（メタデータ） (2020-05-07T21:36:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。