論文の概要: ChakmaNMT: A Low-resource Machine Translation On Chakma Language
- arxiv url: http://arxiv.org/abs/2410.10219v1
- Date: Mon, 14 Oct 2024 07:21:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 02:24:44.247849
- Title: ChakmaNMT: A Low-resource Machine Translation On Chakma Language
- Title(参考訳): ChakmaNMT: Chakma言語での低リソース機械翻訳
- Authors: Aunabil Chakma, Aditya Chakma, Soham Khisa, Chumui Tripura, Masum Hasan, Rifat Shahriyar,
- Abstract要約: 先住民のチャクマ族とメインストリームのバングラデシュの地政学的区分は、文化的・言語的なギャップを生じさせている。
15,021個の並列サンプルと42,783個の単言語サンプルを新たに導入した。
トレーニングセットでは,従来型および最先端のモデルをNLPで実行し,Chakmaの文字化によるバックトランスレーションを微調整したBanglaT5をBLEUスコアで最高に達成した。
- 参考スコア(独自算出の注目度): 2.76427743206028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The geopolitical division between the indigenous Chakma population and mainstream Bangladesh creates a significant cultural and linguistic gap, as the Chakma community, mostly residing in the hill tracts of Bangladesh, maintains distinct cultural traditions and language. Developing a Machine Translation (MT) model or Chakma to Bangla could play a crucial role in alleviating this cultural-linguistic divide. Thus, we have worked on MT between CCP-BN(Chakma-Bangla) by introducing a novel dataset of 15,021 parallel samples and 42,783 monolingual samples of the Chakma Language. Moreover, we introduce a small set for Benchmarking containing 600 parallel samples between Chakma, Bangla, and English. We ran traditional and state-of-the-art models in NLP on the training set, where fine-tuning BanglaT5 with back-translation using transliteration of Chakma achieved the highest BLEU score of 17.8 and 4.41 in CCP-BN and BN-CCP respectively on the Benchmark Dataset. As far as we know, this is the first-ever work on MT for the Chakma Language. Hopefully, this research will help to bridge the gap in linguistic resources and contribute to preserving endangered languages. Our dataset link and codes will be published soon.
- Abstract(参考訳): 先住民のチャクマ族とバングラデシュの主流派の間の地政学的区分は、チャクマ族が主にバングラデシュの丘陵地帯に住んでいるため、文化的・言語的なギャップを生じさせる。
機械翻訳(MT)モデルやチャクマをバングラに開発することは、この文化的・言語的な隔たりを緩和する上で重要な役割を果たす可能性がある。
そこで我々は, CCP-BN (Chakma-Bangla) 間のMTについて, 15,021個の並列サンプルと42,783個の単言語サンプルを新たに導入して検討した。
さらに、Chakma, Bangla, English間の600の並列サンプルを含むベンチマーク用の小さなセットも紹介する。
CCP-BN と BN-CCP でそれぞれ17.8 と4.41 の BLEU スコアを達成した。
私たちが知る限りでは、これがChakma言語のためのMTに関する最初の作業です。
この研究は、言語資源のギャップを埋め、絶滅危惧言語を保存するのに役立つことを期待している。
データセットのリンクとコードも間もなく公開される予定です。
関連論文リスト
- BanglaDialecto: An End-to-End AI-Powered Regional Speech Standardization [7.059964549363294]
本研究は、方言のNoakhali音声を標準のBangla音声に変換するためのエンドツーエンドパイプラインを提案する。
約55の異なる方言が1億6000万人が話しており、バングラ方言に対処することは包括的コミュニケーションツールの開発に不可欠である。
実験の結果,Whisper ASRモデルが0.8%,WERが1.5%,BanglaT5モデルが41.6%,BLEUが41.6%であった。
論文 参考訳(メタデータ) (2024-11-16T20:20:15Z) - BongLLaMA: LLaMA for Bangla Language [0.0]
BongLLaMAは、大規模なBanglaコーパスと命令チューニングデータセットにのみ焦点を絞った、オープンソースの大規模言語モデルである。
BLPタスクにおけるBongLLaMAの有用性を示すため,本手法,データ拡張手法,微調整の詳細,総合的なベンチマーク結果を提案する。
論文 参考訳(メタデータ) (2024-10-28T16:44:02Z) - Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Multilingual Text Style Transfer: Datasets & Models for Indian Languages [1.116636487692753]
本稿では,インド諸言語にまたがるTSTサブタスクである感情伝達に焦点を当てた。
これらの8言語それぞれに対して、1000の正と1000の負のスタイルパラレル文からなる専用データセットを導入する。
並列性,非並列性,クロスランガル性,共有学習アプローチに分類した各種ベンチマークモデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-05-31T14:05:27Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - BanglaNLP at BLP-2023 Task 2: Benchmarking different Transformer Models
for Sentiment Analysis of Bangla Social Media Posts [0.46040036610482665]
本稿では,BLPワークショップ第2タスク(Bangla Social Media Posts の感性分析)について紹介する。
我々の定量的結果は、トランスファーラーニングが、この低リソース言語シナリオにおけるモデルのより優れた学習に役立つことを示している。
テストセットで67.02%のマイクロF1を取得し、この共有タスクのパフォーマンスをリーダーボードで21にランク付けする。
論文 参考訳(メタデータ) (2023-10-13T16:46:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - On Evaluation of Bangla Word Analogies [0.8658596218544772]
本稿では,Bangla単語の埋め込み品質を評価するための高品質なデータセットを提案する。
世界で7番目に普及した言語であるにもかかわらず、Banglaは低リソース言語であり、人気のあるNLPモデルはうまく機能しない。
論文 参考訳(メタデータ) (2023-04-10T14:27:35Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。