論文の概要: Transcribing Bengali Text with Regional Dialects to IPA using District Guided Tokens
- arxiv url: http://arxiv.org/abs/2403.17407v1
- Date: Tue, 26 Mar 2024 05:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 16:36:05.441236
- Title: Transcribing Bengali Text with Regional Dialects to IPA using District Guided Tokens
- Title(参考訳): 地域方言によるベンガル文字のIPAへの翻訳
- Authors: S M Jishanul Islam, Sadia Ahmmed, Sahid Hossain Mustakim,
- Abstract要約: 本稿では,バングラデシュの6つの地区にまたがる新しいデータセットについて,DGT(District Guided Tokens)技術を紹介する。
DGTテクニックは、この新しいデータセットに基づいて、いくつかのトランスフォーマーベースのモデルを微調整する。
ByT5モデルを用いたDGTの有効性を示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate transcription of Bengali text to the International Phonetic Alphabet (IPA) is a challenging task due to the complex phonology of the language and context-dependent sound changes. This challenge is even more for regional Bengali dialects due to unavailability of standardized spelling conventions for these dialects, presence of local and foreign words popular in those regions and phonological diversity across different regions. This paper presents an approach to this sequence-to-sequence problem by introducing the District Guided Tokens (DGT) technique on a new dataset spanning six districts of Bangladesh. The key idea is to provide the model with explicit information about the regional dialect or "district" of the input text before generating the IPA transcription. This is achieved by prepending a district token to the input sequence, effectively guiding the model to understand the unique phonetic patterns associated with each district. The DGT technique is applied to fine-tune several transformer-based models, on this new dataset. Experimental results demonstrate the effectiveness of DGT, with the ByT5 model achieving superior performance over word-based models like mT5, BanglaT5, and umT5. This is attributed to ByT5's ability to handle a high percentage of out-of-vocabulary words in the test set. The proposed approach highlights the importance of incorporating regional dialect information into ubiquitous natural language processing systems for languages with diverse phonological variations. The following work was a result of the "Bhashamul" challenge, which is dedicated to solving the problem of Bengali text with regional dialects to IPA transcription https://www.kaggle.com/competitions/regipa/. The training and inference notebooks are available through the competition link.
- Abstract(参考訳): 国際音声アルファベット (IPA) へのベンガル文字の正確な転写は、言語の複雑な音韻論と文脈に依存した音変化のために難しい課題である。
この課題は、これらの方言の標準化された綴り規則が適用できないこと、これらの地域で人気がある地域や外国語の存在、様々な地域における音韻学的多様性により、ベンガル方言にとってさらに大きな意味を持つ。
本稿では,バングラデシュの6つの地区にまたがる新しいデータセットにDGT手法を導入することにより,このシーケンス・ツー・シーケンス問題へのアプローチを提案する。
鍵となる考え方は、IPA転写を生成する前に、入力されたテキストの地域方言または「区切り」に関する明示的な情報をモデルに提供することである。
これは、地区トークンを入力シーケンスに前置し、各地区に関連付けられた独特の音韻パターンを理解するためのモデルを効果的に導くことによって達成される。
DGTテクニックは、この新しいデータセットに基づいて、いくつかのトランスフォーマーベースのモデルを微調整する。
ByT5モデルは,mT5,BanglaT5,UmT5などの単語ベースモデルよりも優れた性能を示した。
これは、ByT5がテストセット内の語彙外単語を高い割合で処理できる能力に起因している。
提案手法は,多様な音韻変化を持つ言語に対して,地域方言情報をユビキタスな自然言語処理システムに組み込むことの重要性を強調した。
Bhashamulは、ベンガル語の方言と、IPAの転写に関する問題を、https://www.kaggle.com/competitions/regipa/で解決することを目的としている。
トレーニングと推論のノートブックは、コンペティションリンクから入手できる。
関連論文リスト
- IPA Transcription of Bengali Texts [0.2113150621171959]
国際音声アルファベット(IPA)は、言語で音素を体系化する。
ベンガル音韻学と音声学では、IPA標準とベンガル中核音素に関する学術的な議論が続いている。
この研究は、先行研究を検証し、現在および潜在的な問題を特定し、ベンガルのIPA標準の枠組みを提案する。
論文 参考訳(メタデータ) (2024-03-29T09:33:34Z) - Language Detection for Transliterated Content [0.0]
我々は、英語のアルファベットを母国語でメッセージを伝えるために使用する翻訳の広汎な利用について研究する。
本稿では,ヒンディー語とロシア語を英語に翻訳した音声テキストのデータセットを用いて,この問題に対処する。
この研究は、翻訳されたテキストを識別し、変換するための革新的なアプローチの先駆者である。
論文 参考訳(メタデータ) (2024-01-09T15:40:54Z) - Offensive Language Identification in Transliterated and Code-Mixed
Bangla [29.30985521838655]
本稿では,翻訳とコードミキシングによるテキスト中の攻撃的言語識別について検討する。
TB-OLID(TB-OLID)は,5000のコメントを手動で書き起こした,バングラの攻撃的言語データセットである。
我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。
論文 参考訳(メタデータ) (2023-11-25T13:27:22Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by
Whispering to ChatGPT [70.75170078517284]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - Cross-modality Data Augmentation for End-to-End Sign Language
Translation [71.31075396354406]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
XmDAは、クロスモダリティ混合とクロスモダリティ知識蒸留という2つの重要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - T5lephone: Bridging Speech and Text Self-supervised Models for Spoken
Language Understanding via Phoneme level T5 [65.32642587901903]
我々は、異なるトークン化戦略を持つPLMが音声言語理解タスクにどのように影響するかを広範囲に研究する。
我々は、音素化されたテキストを使って事前訓練されたT5の変種であるT5lephoneを作成するためのアイデアを拡張した。
論文 参考訳(メタデータ) (2022-11-01T17:00:23Z) - Quantifying Language Variation Acoustically with Few Resources [4.162663632560141]
ディープ・アコースティック・モデルは低リソース言語に転送する言語情報を学んだかもしれない。
4つの言語(地域)から100以上の方言に対して平均10語以上の発音差を計算する。
その結果,音響モデルは音素の書き起こしを必要とせずに(従来の)書き起こし方式よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-05T15:00:56Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。