論文の概要: Transcribing Bengali Text with Regional Dialects to IPA using District Guided Tokens
- arxiv url: http://arxiv.org/abs/2403.17407v2
- Date: Mon, 1 Apr 2024 13:27:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 13:25:26.492763
- Title: Transcribing Bengali Text with Regional Dialects to IPA using District Guided Tokens
- Title(参考訳): 地域方言によるベンガル文字のIPAへの翻訳
- Authors: S M Jishanul Islam, Sadia Ahmmed, Sahid Hossain Mustakim,
- Abstract要約: 本稿では,バングラデシュの6つの地区にまたがる新しいデータセットについて,DGT(District Guided Tokens)技術を紹介する。
DGTテクニックは、この新しいデータセットに基づいて、いくつかのトランスフォーマーベースのモデルを微調整する。
ByT5モデルを用いたDGTの有効性を示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate transcription of Bengali text to the International Phonetic Alphabet (IPA) is a challenging task due to the complex phonology of the language and context-dependent sound changes. This challenge is even more for regional Bengali dialects due to unavailability of standardized spelling conventions for these dialects, presence of local and foreign words popular in those regions and phonological diversity across different regions. This paper presents an approach to this sequence-to-sequence problem by introducing the District Guided Tokens (DGT) technique on a new dataset spanning six districts of Bangladesh. The key idea is to provide the model with explicit information about the regional dialect or "district" of the input text before generating the IPA transcription. This is achieved by prepending a district token to the input sequence, effectively guiding the model to understand the unique phonetic patterns associated with each district. The DGT technique is applied to fine-tune several transformer-based models, on this new dataset. Experimental results demonstrate the effectiveness of DGT, with the ByT5 model achieving superior performance over word-based models like mT5, BanglaT5, and umT5. This is attributed to ByT5's ability to handle a high percentage of out-of-vocabulary words in the test set. The proposed approach highlights the importance of incorporating regional dialect information into ubiquitous natural language processing systems for languages with diverse phonological variations. The following work was a result of the "Bhashamul" challenge, which is dedicated to solving the problem of Bengali text with regional dialects to IPA transcription https://www.kaggle.com/competitions/regipa/. The training and inference notebooks are available through the competition link.
- Abstract(参考訳): 国際音声アルファベット (IPA) へのベンガル文字の正確な転写は、言語の複雑な音韻論と文脈に依存した音変化のために難しい課題である。
この課題は、これらの方言の標準化された綴り規則が適用できないこと、これらの地域で人気がある地域や外国語の存在、様々な地域における音韻学的多様性により、ベンガル方言にとってさらに大きな意味を持つ。
本稿では,バングラデシュの6つの地区にまたがる新しいデータセットにDGT手法を導入することにより,このシーケンス・ツー・シーケンス問題へのアプローチを提案する。
鍵となる考え方は、IPA転写を生成する前に、入力されたテキストの地域方言または「区切り」に関する明示的な情報をモデルに提供することである。
これは、地区トークンを入力シーケンスに前置し、各地区に関連付けられた独特の音韻パターンを理解するためのモデルを効果的に導くことによって達成される。
DGTテクニックは、この新しいデータセットに基づいて、いくつかのトランスフォーマーベースのモデルを微調整する。
ByT5モデルは,mT5,BanglaT5,UmT5などの単語ベースモデルよりも優れた性能を示した。
これは、ByT5がテストセット内の語彙外単語を高い割合で処理できる能力に起因している。
提案手法は,多様な音韻変化を持つ言語に対して,地域方言情報をユビキタスな自然言語処理システムに組み込むことの重要性を強調した。
Bhashamulは、ベンガル語の方言と、IPAの転写に関する問題を、https://www.kaggle.com/competitions/regipa/で解決することを目的としている。
トレーニングと推論のノートブックは、コンペティションリンクから入手できる。
関連論文リスト
- BanglaDialecto: An End-to-End AI-Powered Regional Speech Standardization [7.059964549363294]
本研究は、方言のNoakhali音声を標準のBangla音声に変換するためのエンドツーエンドパイプラインを提案する。
約55の異なる方言が1億6000万人が話しており、バングラ方言に対処することは包括的コミュニケーションツールの開発に不可欠である。
実験の結果,Whisper ASRモデルが0.8%,WERが1.5%,BanglaT5モデルが41.6%,BLEUが41.6%であった。
論文 参考訳(メタデータ) (2024-11-16T20:20:15Z) - Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT [29.167336994990542]
クロス・ディレクト・テキスト・トゥ・スペーチ(CD-TTS)は、非ネイティブ方言における学習された話者の声を合成するタスクである。
本稿では,3つのサブモジュールからなる新しいTSモデルを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:40:27Z) - Exploring Diachronic and Diatopic Changes in Dialect Continua: Tasks, Datasets and Challenges [2.572144535177391]
我々は3つの言語族(スラヴ語、ロマンス語、ゲルマン語)から5つの方言にまたがる9つのタスクとデータセットを批判的に評価する。
本稿では,方言使用の経時的変化,方言データセットの信頼性,話者特性の重要性,方言の限られた範囲,データ収集における倫理的配慮に関する5つのオープンな課題を概説する。
言語の種類や方言の包括的計算手法やデータセットに関する今後の研究に光を当てることを願っています。
論文 参考訳(メタデータ) (2024-07-04T15:38:38Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - IPA Transcription of Bengali Texts [0.2113150621171959]
国際音声アルファベット(IPA)は、言語で音素を体系化する。
ベンガル音韻学と音声学では、IPA標準とベンガル中核音素に関する学術的な議論が続いている。
この研究は、先行研究を検証し、現在および潜在的な問題を特定し、ベンガルのIPA標準の枠組みを提案する。
論文 参考訳(メタデータ) (2024-03-29T09:33:34Z) - Language Detection for Transliterated Content [0.0]
我々は、英語のアルファベットを母国語でメッセージを伝えるために使用する翻訳の広汎な利用について研究する。
本稿では,ヒンディー語とロシア語を英語に翻訳した音声テキストのデータセットを用いて,この問題に対処する。
この研究は、翻訳されたテキストを識別し、変換するための革新的なアプローチの先駆者である。
論文 参考訳(メタデータ) (2024-01-09T15:40:54Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - T5lephone: Bridging Speech and Text Self-supervised Models for Spoken
Language Understanding via Phoneme level T5 [65.32642587901903]
我々は、異なるトークン化戦略を持つPLMが音声言語理解タスクにどのように影響するかを広範囲に研究する。
我々は、音素化されたテキストを使って事前訓練されたT5の変種であるT5lephoneを作成するためのアイデアを拡張した。
論文 参考訳(メタデータ) (2022-11-01T17:00:23Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。