論文の概要: Character-Level Bangla Text-to-IPA Transcription Using Transformer
Architecture with Sequence Alignment
- arxiv url: http://arxiv.org/abs/2311.03792v1
- Date: Tue, 7 Nov 2023 08:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 16:27:24.187503
- Title: Character-Level Bangla Text-to-IPA Transcription Using Transformer
Architecture with Sequence Alignment
- Title(参考訳): シーケンスアライメント付きトランスフォーマーアーキテクチャを用いた文字レベルバングラテキスト-IPA転写
- Authors: Jakir Hasan, Shrestha Datta, Ameya Debnath
- Abstract要約: International Phonetic Alphabet (IPA) は、言語学習と理解において不可欠である。
ブータンは広く使われている言語の一つとして7番目であり、その領域でIPAを必要としている。
本研究では,文字レベルと記号レベルの変換器に基づくシーケンス・ツー・シーケンス・モデルを用いて,各バングラ語のIPAを取得する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The International Phonetic Alphabet (IPA) is indispensable in language
learning and understanding, aiding users in accurate pronunciation and
comprehension. Additionally, it plays a pivotal role in speech therapy,
linguistic research, accurate transliteration, and the development of
text-to-speech systems, making it an essential tool across diverse fields.
Bangla being 7th as one of the widely used languages, gives rise to the need
for IPA in its domain. Its IPA mapping is too diverse to be captured manually
giving the need for Artificial Intelligence and Machine Learning in this field.
In this study, we have utilized a transformer-based sequence-to-sequence model
at the letter and symbol level to get the IPA of each Bangla word as the
variation of IPA in association of different words is almost null. Our
transformer model only consisted of 8.5 million parameters with only a single
decoder and encoder layer. Additionally, to handle the punctuation marks and
the occurrence of foreign languages in the text, we have utilized manual
mapping as the model won't be able to learn to separate them from Bangla words
while decreasing our required computational resources. Finally, maintaining the
relative position of the sentence component IPAs and generation of the combined
IPA has led us to achieve the top position with a word error rate of 0.10582 in
the public ranking of DataVerse Challenge - ITVerse 2023
(https://www.kaggle.com/competitions/dataverse_2023/).
- Abstract(参考訳): 国際音声アルファベット(IPA)は、言語学習と理解において不可欠であり、正確な発音と理解を支援する。
さらに、音声療法、言語研究、正確な翻訳、テキスト対音声システムの開発において重要な役割を担っており、様々な分野にまたがる重要なツールとなっている。
広く使われている言語の7番目であるBanglaは、そのドメインでIPAを必要としている。
IPAマッピングは多種多様で、手動でキャプチャできるため、この分野では人工知能と機械学習の必要性がある。
本研究では,文字と記号レベルでのトランスフォーマティブに基づくシーケンス・ツー・シーケンスモデルを用いて,各バングラ語のipaを,単語の関連付けにおけるipaのばらつきとしてほぼ無効にする。
我々のトランスモデルは850万のパラメータと1つのデコーダ層とエンコーダ層のみで構成されている。
さらに,テキスト中の句読点や外国語の発生に対処するために,モデルがバングラ語からそれらを切り離すことを学習できなくなり,必要な計算資源を削減できるため,手作業によるマッピングも活用した。
最後に、文成分IPAの相対的な位置を維持し、組み合わせたIPAの生成は、DataVerse Challenge - ITVerse 2023 (https://www.kaggle.com/competitions/dataverse_2023/) の公開ランキングにおいて、単語エラー率0.10582でトップの位置に到達した。
関連論文リスト
- Universal Automatic Phonetic Transcription into the International
Phonetic Alphabet [21.000425416084706]
任意の言語における音声をIPA(International Phonetic Alphabet)に翻訳するための最先端モデルを提案する。
我々のモデルはwav2vec 2.0に基づいており、オーディオ入力からIPAを予測するために微調整されている。
我々は,我々の共通音声-IPAモデルの品質が,人間のアノテータのそれに近いことを示す。
論文 参考訳(メタデータ) (2023-08-07T21:29:51Z) - IPA-CLIP: Integrating Phonetic Priors into Vision and Language
Pretraining [8.129944388402839]
本稿では,コントラスト言語-画像事前学習(CLIP)に先行音声を挿入する。
IPA-CLIPはこの発音エンコーダと元のCLIPエンコーダ(画像とテキスト)からなる。
論文 参考訳(メタデータ) (2023-03-06T13:59:37Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Revisiting IPA-based Cross-lingual Text-to-speech [11.010299086810994]
International Phonetic Alphabet (IPA) は、言語間音声のクローニング(CL VC)を実現するために、TTS (cross-lingual text-to-speech) で広く使われている。
本稿では,IPAを入力として用いた言語間TSモデルの構築に関する実証的な知見を報告する。
実験により、IPAおよび上行シーケンスの処理方法がCLVCのパフォーマンスに無視できる影響があることが示されている。
論文 参考訳(メタデータ) (2021-10-14T07:22:23Z) - Polyphone Disambiguition in Mandarin Chinese with Semi-Supervised
Learning [9.595035978417322]
マンダリン中国語多音不明瞭化のための半教師付き学習フレームワークを提案する。
本稿では,エントロピー保持やレキシコンベースラベリングなど,さまざまなプロキシラベリング戦略の効果について検討する。
論文 参考訳(メタデータ) (2021-02-01T03:47:59Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z) - GIPFA: Generating IPA Pronunciation from Audio [0.0]
本研究では,単語のIPA発音を自動的に抽出するニューラルネットワーク(ANN)モデルについて検討する。
フランスのウィキメディア辞書に基づいて、我々のモデルを訓練し、テストされたIPA発音の75%を正しく予測した。
論文 参考訳(メタデータ) (2020-06-13T06:14:11Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Phonotactic Complexity and its Trade-offs [73.10961848460613]
この単純な測度により、言語間のエントロピーを比較することができる。
音素あたりのビット数と単語の平均長との間には-0.74の非常に強い負の相関関係を示す。
論文 参考訳(メタデータ) (2020-05-07T21:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。