論文の概要: Improving Bangla Linguistics: Advanced LSTM, Bi-LSTM, and Seq2Seq Models for Translating Sylheti to Modern Bangla
- arxiv url: http://arxiv.org/abs/2505.18709v1
- Date: Sat, 24 May 2025 14:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.610271
- Title: Improving Bangla Linguistics: Advanced LSTM, Bi-LSTM, and Seq2Seq Models for Translating Sylheti to Modern Bangla
- Title(参考訳): バングラ言語の改善:現代バングラへのシルヘティ翻訳のための高度LSTM, Bi-LSTM, Seq2Seqモデル
- Authors: Sourav Kumar Das, Md. Julkar Naeen, MD. Jahidul Islam, Md. Anisul Haque Sajeeb, Narayan Ranjan Chakraborty, Mayen Uddin Mojumdar,
- Abstract要約: バングラデシュのすべての地域は、シルヘティ語、チッタゴン語など独自の言語を持っている。
本研究は現地語用であり,本論文はSylheti言語に関するものである。
自然言語処理やNLP技術を用いて、PureやModern Banglaを局所的に話されるSylheti Bangla言語に翻訳する包括的なシステムを提示した。
- 参考スコア(独自算出の注目度): 3.11717505289722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bangla or Bengali is the national language of Bangladesh, people from different regions don't talk in proper Bangla. Every division of Bangladesh has its own local language like Sylheti, Chittagong etc. In recent years some papers were published on Bangla language like sentiment analysis, fake news detection and classifications, but a few of them were on Bangla languages. This research is for the local language and this particular paper is on Sylheti language. It presented a comprehensive system using Natural Language Processing or NLP techniques for translating Pure or Modern Bangla to locally spoken Sylheti Bangla language. Total 1200 data used for training 3 models LSTM, Bi-LSTM and Seq2Seq and LSTM scored the best in performance with 89.3% accuracy. The findings of this research may contribute to the growth of Bangla NLP researchers for future more advanced innovations.
- Abstract(参考訳): バングラ語(バングラ語、Bengali)はバングラデシュの国語であり、各地の人々は適切なバングラ語を話さない。
バングラデシュのすべての地域は、シルヘティ語、チッタゴン語など独自の言語を持っている。
近年、感情分析、偽ニュースの検出、分類などバングラ語に関する論文がいくつか発表されたが、バングラ語に関する論文もいくつかあった。
本研究は現地語用であり,本論文はSylheti言語に関するものである。
自然言語処理やNLP技術を用いて、PureやModern Banglaを局所的に話されるSylheti Bangla言語に翻訳する包括的なシステムを提示した。
3モデルのLSTM、Bi-LSTM、Seq2Seq、LSTMの合計1200データは89.3%の精度で最高の成績を収めた。
この研究の成果は、より先進的なイノベーションのためのバングラNLP研究者の成長に寄与する可能性がある。
関連論文リスト
- BongLLaMA: LLaMA for Bangla Language [0.0]
BongLLaMAは、大規模なBanglaコーパスと命令チューニングデータセットにのみ焦点を絞った、オープンソースの大規模言語モデルである。
BLPタスクにおけるBongLLaMAの有用性を示すため,本手法,データ拡張手法,微調整の詳細,総合的なベンチマーク結果を提案する。
論文 参考訳(メタデータ) (2024-10-28T16:44:02Z) - Vashantor: A Large-scale Multilingual Benchmark Dataset for Automated
Translation of Bangla Regional Dialects to Bangla Language [0.0]
バングラ地方方言を標準語に翻訳する際、顕著なギャップがあった。
我々の目的は、これらの方言を標準バングラに翻訳し、正確に地域を検出することである。
これはバングラ地方方言をバングラ機械翻訳に応用した最初の大規模な調査である。
論文 参考訳(メタデータ) (2023-11-18T18:36:16Z) - BanglaNLP at BLP-2023 Task 2: Benchmarking different Transformer Models
for Sentiment Analysis of Bangla Social Media Posts [0.46040036610482665]
本稿では,BLPワークショップ第2タスク(Bangla Social Media Posts の感性分析)について紹介する。
我々の定量的結果は、トランスファーラーニングが、この低リソース言語シナリオにおけるモデルのより優れた学習に役立つことを示している。
テストセットで67.02%のマイクロF1を取得し、この共有タスクのパフォーマンスをリーダーボードで21にランク付けする。
論文 参考訳(メタデータ) (2023-10-13T16:46:38Z) - A Benchmark for Learning to Translate a New Language from One Grammar
Book [41.1108119653453]
MTOBは英語とカラマン語を翻訳するためのベンチマークである。
モデルは、人間の読みやすい文法説明書から言語を学ぶように求めている。
現状のLLMを用いたベースラインは有望であるが,人間の性能には劣っていることを示す。
論文 参考訳(メタデータ) (2023-09-28T16:32:28Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - On Evaluation of Bangla Word Analogies [0.8658596218544772]
本稿では,Bangla単語の埋め込み品質を評価するための高品質なデータセットを提案する。
世界で7番目に普及した言語であるにもかかわらず、Banglaは低リソース言語であり、人気のあるNLPモデルはうまく機能しない。
論文 参考訳(メタデータ) (2023-04-10T14:27:35Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Transferring Knowledge Distillation for Multilingual Social Event
Detection [42.663309895263666]
最近発表されたグラフニューラルネットワーク(GNN)は、ソーシャルイベント検出タスクにおける有望なパフォーマンスを示している。
本稿では,多言語データストリーム中の事象を検出するために,言語間単語埋め込みを組み込んだGNNを提案する。
合成データセットと実世界のデータセットの両方の実験では、多言語データとトレーニングサンプルが不足している言語の両方において、検出に非常に効果的なフレームワークが示されている。
論文 参考訳(メタデータ) (2021-08-06T12:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。