論文の概要: Character-Level Bangla Text-to-IPA Transcription Using Transformer
Architecture with Sequence Alignment
- arxiv url: http://arxiv.org/abs/2311.03792v1
- Date: Tue, 7 Nov 2023 08:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 16:27:24.187503
- Title: Character-Level Bangla Text-to-IPA Transcription Using Transformer
Architecture with Sequence Alignment
- Title(参考訳): シーケンスアライメント付きトランスフォーマーアーキテクチャを用いた文字レベルバングラテキスト-IPA転写
- Authors: Jakir Hasan, Shrestha Datta, Ameya Debnath
- Abstract要約: International Phonetic Alphabet (IPA) は、言語学習と理解において不可欠である。
ブータンは広く使われている言語の一つとして7番目であり、その領域でIPAを必要としている。
本研究では,文字レベルと記号レベルの変換器に基づくシーケンス・ツー・シーケンス・モデルを用いて,各バングラ語のIPAを取得する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The International Phonetic Alphabet (IPA) is indispensable in language
learning and understanding, aiding users in accurate pronunciation and
comprehension. Additionally, it plays a pivotal role in speech therapy,
linguistic research, accurate transliteration, and the development of
text-to-speech systems, making it an essential tool across diverse fields.
Bangla being 7th as one of the widely used languages, gives rise to the need
for IPA in its domain. Its IPA mapping is too diverse to be captured manually
giving the need for Artificial Intelligence and Machine Learning in this field.
In this study, we have utilized a transformer-based sequence-to-sequence model
at the letter and symbol level to get the IPA of each Bangla word as the
variation of IPA in association of different words is almost null. Our
transformer model only consisted of 8.5 million parameters with only a single
decoder and encoder layer. Additionally, to handle the punctuation marks and
the occurrence of foreign languages in the text, we have utilized manual
mapping as the model won't be able to learn to separate them from Bangla words
while decreasing our required computational resources. Finally, maintaining the
relative position of the sentence component IPAs and generation of the combined
IPA has led us to achieve the top position with a word error rate of 0.10582 in
the public ranking of DataVerse Challenge - ITVerse 2023
(https://www.kaggle.com/competitions/dataverse_2023/).
- Abstract(参考訳): 国際音声アルファベット(IPA)は、言語学習と理解において不可欠であり、正確な発音と理解を支援する。
さらに、音声療法、言語研究、正確な翻訳、テキスト対音声システムの開発において重要な役割を担っており、様々な分野にまたがる重要なツールとなっている。
広く使われている言語の7番目であるBanglaは、そのドメインでIPAを必要としている。
IPAマッピングは多種多様で、手動でキャプチャできるため、この分野では人工知能と機械学習の必要性がある。
本研究では,文字と記号レベルでのトランスフォーマティブに基づくシーケンス・ツー・シーケンスモデルを用いて,各バングラ語のipaを,単語の関連付けにおけるipaのばらつきとしてほぼ無効にする。
我々のトランスモデルは850万のパラメータと1つのデコーダ層とエンコーダ層のみで構成されている。
さらに,テキスト中の句読点や外国語の発生に対処するために,モデルがバングラ語からそれらを切り離すことを学習できなくなり,必要な計算資源を削減できるため,手作業によるマッピングも活用した。
最後に、文成分IPAの相対的な位置を維持し、組み合わせたIPAの生成は、DataVerse Challenge - ITVerse 2023 (https://www.kaggle.com/competitions/dataverse_2023/) の公開ランキングにおいて、単語エラー率0.10582でトップの位置に到達した。
関連論文リスト
- Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文 参考訳(メタデータ) (2024-10-11T09:59:48Z) - IPA Transcription of Bengali Texts [0.2113150621171959]
国際音声アルファベット(IPA)は、言語で音素を体系化する。
ベンガル音韻学と音声学では、IPA標準とベンガル中核音素に関する学術的な議論が続いている。
この研究は、先行研究を検証し、現在および潜在的な問題を特定し、ベンガルのIPA標準の枠組みを提案する。
論文 参考訳(メタデータ) (2024-03-29T09:33:34Z) - The taste of IPA: Towards open-vocabulary keyword spotting and forced alignment in any language [7.0944623704102625]
音声処理のための音素モデルにより、未知の言語に対して強い言語横断的一般化が達成できることを示す。
任意の音声信号と音素シーケンスの開語彙マッチングが可能な多言語音声合成コントラスト埋め込みモデルであるCLAP-IPAを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:09:07Z) - Universal Automatic Phonetic Transcription into the International
Phonetic Alphabet [21.000425416084706]
任意の言語における音声をIPA(International Phonetic Alphabet)に翻訳するための最先端モデルを提案する。
我々のモデルはwav2vec 2.0に基づいており、オーディオ入力からIPAを予測するために微調整されている。
我々は,我々の共通音声-IPAモデルの品質が,人間のアノテータのそれに近いことを示す。
論文 参考訳(メタデータ) (2023-08-07T21:29:51Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Revisiting IPA-based Cross-lingual Text-to-speech [11.010299086810994]
International Phonetic Alphabet (IPA) は、言語間音声のクローニング(CL VC)を実現するために、TTS (cross-lingual text-to-speech) で広く使われている。
本稿では,IPAを入力として用いた言語間TSモデルの構築に関する実証的な知見を報告する。
実験により、IPAおよび上行シーケンスの処理方法がCLVCのパフォーマンスに無視できる影響があることが示されている。
論文 参考訳(メタデータ) (2021-10-14T07:22:23Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z) - GIPFA: Generating IPA Pronunciation from Audio [0.0]
本研究では,単語のIPA発音を自動的に抽出するニューラルネットワーク(ANN)モデルについて検討する。
フランスのウィキメディア辞書に基づいて、我々のモデルを訓練し、テストされたIPA発音の75%を正しく予測した。
論文 参考訳(メタデータ) (2020-06-13T06:14:11Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。