論文の概要: Vashantor: A Large-scale Multilingual Benchmark Dataset for Automated
Translation of Bangla Regional Dialects to Bangla Language
- arxiv url: http://arxiv.org/abs/2311.11142v1
- Date: Sat, 18 Nov 2023 18:36:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 10:19:10.067391
- Title: Vashantor: A Large-scale Multilingual Benchmark Dataset for Automated
Translation of Bangla Regional Dialects to Bangla Language
- Title(参考訳): Vashantor: バングラ方言からバングラ語への自動翻訳のための大規模多言語ベンチマークデータセット
- Authors: Fatema Tuj Johora Faria, Mukaffi Bin Moin, Ahmed Al Wase, Mehidi
Ahmmed, Md. Rabius Sani, Tashreef Muhammad
- Abstract要約: バングラ地方方言を標準語に翻訳する際、顕著なギャップがあった。
我々の目的は、これらの方言を標準バングラに翻訳し、正確に地域を検出することである。
これはバングラ地方方言をバングラ機械翻訳に応用した最初の大規模な調査である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Bangla linguistic variety is a fascinating mix of regional dialects that
adds to the cultural diversity of the Bangla-speaking community. Despite
extensive study into translating Bangla to English, English to Bangla, and
Banglish to Bangla in the past, there has been a noticeable gap in translating
Bangla regional dialects into standard Bangla. In this study, we set out to
fill this gap by creating a collection of 32,500 sentences, encompassing
Bangla, Banglish, and English, representing five regional Bangla dialects. Our
aim is to translate these regional dialects into standard Bangla and detect
regions accurately. To achieve this, we proposed models known as mT5 and
BanglaT5 for translating regional dialects into standard Bangla. Additionally,
we employed mBERT and Bangla-bert-base to determine the specific regions from
where these dialects originated. Our experimental results showed the highest
BLEU score of 69.06 for Mymensingh regional dialects and the lowest BLEU score
of 36.75 for Chittagong regional dialects. We also observed the lowest average
word error rate of 0.1548 for Mymensingh regional dialects and the highest of
0.3385 for Chittagong regional dialects. For region detection, we achieved an
accuracy of 85.86% for Bangla-bert-base and 84.36% for mBERT. This is the first
large-scale investigation of Bangla regional dialects to Bangla machine
translation. We believe our findings will not only pave the way for future work
on Bangla regional dialects to Bangla machine translation, but will also be
useful in solving similar language-related challenges in low-resource language
conditions.
- Abstract(参考訳): バングラ語の多様性は、バングラ語のコミュニティの文化的多様性を増す地域方言の魅力的な混合である。
過去にはバングラ語を英語に、英語をバングラ語に、バングラ語をバングラ語に翻訳する研究が盛んに行われていたが、バングラ語を標準バングラ語に翻訳することには顕著なギャップがあった。
そこで本研究では,バングラ語,バングラ語,英語を包含する32,500文のコレクションを作成し,バングラ語の5つの方言を表現した。
我々の目標は、これらの方言を標準バングラに翻訳し、正確に地域を検出することである。
そこで我々は,地域方言を標準バングラに翻訳するモデルmT5とBanglaT5を提案する。
さらに,mBERTとBangla-bert-baseを用いて,これらの方言の発祥地から特定の地域を特定する。
実験の結果,Mymensingh地方方言のBLEUスコアは69.06で,Chittagong地方方言のBLEUスコアは36.75であった。
また,mymensingh地域方言では0.1548,chittagong地域方言では0.3385であった。
地域検出では,Bangla-bert-baseで85.86%,mBERTで84.36%の精度を得た。
これはバングラ地域方言をバングラ機械翻訳に翻訳する最初の大規模な調査である。
我々の発見は、バングラ地方方言からバングラ機械翻訳への今後の取り組みの道を開くだけでなく、低リソース言語条件における同様の言語関連課題の解決にも役立ちます。
関連論文リスト
- BanglaDialecto: An End-to-End AI-Powered Regional Speech Standardization [7.059964549363294]
本研究は、方言のNoakhali音声を標準のBangla音声に変換するためのエンドツーエンドパイプラインを提案する。
約55の異なる方言が1億6000万人が話しており、バングラ方言に対処することは包括的コミュニケーションツールの開発に不可欠である。
実験の結果,Whisper ASRモデルが0.8%,WERが1.5%,BanglaT5モデルが41.6%,BLEUが41.6%であった。
論文 参考訳(メタデータ) (2024-11-16T20:20:15Z) - BongLLaMA: LLaMA for Bangla Language [0.0]
BongLLaMAは、大規模なBanglaコーパスと命令チューニングデータセットにのみ焦点を絞った、オープンソースの大規模言語モデルである。
BLPタスクにおけるBongLLaMAの有用性を示すため,本手法,データ拡張手法,微調整の詳細,総合的なベンチマーク結果を提案する。
論文 参考訳(メタデータ) (2024-10-28T16:44:02Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank [56.810282574817414]
We present the first multi-dialect Bavarian treebank (MaiBaam) based with part-of-speech and syntactic dependency information in Universal Dependencies (UD)。
我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。
私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
論文 参考訳(メタデータ) (2024-03-15T13:33:10Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。
HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文 参考訳(メタデータ) (2023-11-02T01:17:29Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - BanglaNLP at BLP-2023 Task 2: Benchmarking different Transformer Models
for Sentiment Analysis of Bangla Social Media Posts [0.46040036610482665]
本稿では,BLPワークショップ第2タスク(Bangla Social Media Posts の感性分析)について紹介する。
我々の定量的結果は、トランスファーラーニングが、この低リソース言語シナリオにおけるモデルのより優れた学習に役立つことを示している。
テストセットで67.02%のマイクロF1を取得し、この共有タスクのパフォーマンスをリーダーボードで21にランク付けする。
論文 参考訳(メタデータ) (2023-10-13T16:46:38Z) - On Evaluation of Bangla Word Analogies [0.8658596218544772]
本稿では,Bangla単語の埋め込み品質を評価するための高品質なデータセットを提案する。
世界で7番目に普及した言語であるにもかかわらず、Banglaは低リソース言語であり、人気のあるNLPモデルはうまく機能しない。
論文 参考訳(メタデータ) (2023-04-10T14:27:35Z) - BanglaNLG: Benchmarks and Resources for Evaluating Low-Resource Natural
Language Generation in Bangla [21.47743471497797]
本研究はバングラの自然言語生成モデルを評価するためのベンチマークを示す。
BanglaNLGベンチマークでは,3つの条件付きテキスト生成タスクを集約する。
クリーンコーパス27.5GBのBanglaデータを用いて、Banglaのシーケンス・ツー・シーケンス・トランスフォーマーモデルであるBanglaT5を事前訓練する。
BanglaT5はすべてのタスクで最先端のパフォーマンスを実現し、mT5(ベース)を最大5.4%上回っている。
論文 参考訳(メタデータ) (2022-05-23T06:54:56Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。