論文の概要: Advancing Bangla Machine Translation Through Informal Datasets
- arxiv url: http://arxiv.org/abs/2512.13487v1
- Date: Mon, 15 Dec 2025 16:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.744408
- Title: Advancing Bangla Machine Translation Through Informal Datasets
- Title(参考訳): インフォーマルデータセットによるバングラ機械翻訳の高速化
- Authors: Ayon Roy, Risat Rahaman, Sadat Shibly, Udoy Saha Joy, Abdulla Al Kafi, Farig Yousuf Sadeque,
- Abstract要約: バングラ語は世界で6番目に広く話されている言語であり、約2億2400万人の母語話者がいる。
ほとんどのオンラインリソースは英語で書かれており、バングラ語に翻訳されていないことが多い。
本研究は,デジタルワールドにおけるバングラ語話者の非公式翻訳とアクセシビリティ向上に着目して,バングラ語機械翻訳の進歩を目指す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bangla is the sixth most widely spoken language globally, with approximately 234 million native speakers. However, progress in open-source Bangla machine translation remains limited. Most online resources are in English and often remain untranslated into Bangla, excluding millions from accessing essential information. Existing research in Bangla translation primarily focuses on formal language, neglecting the more commonly used informal language. This is largely due to the lack of pairwise Bangla-English data and advanced translation models. If datasets and models can be enhanced to better handle natural, informal Bangla, millions of people will benefit from improved online information access. In this research, we explore current state-of-the-art models and propose improvements to Bangla translation by developing a dataset from informal sources like social media and conversational texts. This work aims to advance Bangla machine translation by focusing on informal language translation and improving accessibility for Bangla speakers in the digital world.
- Abstract(参考訳): バングラ語は世界で6番目に広く話されている言語であり、約2億2400万人の母語話者がいる。
しかし、オープンソースのBanglaマシン翻訳の進歩は依然として限られている。
ほとんどのオンラインリソースは英語で書かれており、バングラ語に翻訳されていないことが多い。
バングラ語翻訳における既存の研究は主にフォーマルな言語に焦点を当てており、より一般的に使われる非公式な言語を無視している。
これは主に、ペアワイズ・バングラ・イングリッシュのデータと高度な翻訳モデルがないためである。
データセットとモデルを拡張して、自然で非公式なBanglaをうまく扱えるようにすれば、何百万人もの人々がオンライン情報アクセスの改善に恩恵を受けるだろう。
本研究では,現在の最先端モデルについて検討し,ソーシャルメディアや会話テキストなどの非公式な情報源からデータセットを作成することにより,バングラ翻訳の改良を提案する。
本研究は,デジタルワールドにおけるバングラ語話者の非公式翻訳とアクセシビリティ向上に着目して,バングラ語機械翻訳の進歩を目指す。
関連論文リスト
- BanglaLlama: LLaMA for Bangla Language [1.0710988917914002]
バングラ語は世界で5番目に大きな言語であるが、依然として「低リソース」言語である。
既存の事前訓練された言語モデルは、しばしばBangla Language Processing (BLP)タスクでうまく機能するのに苦労する。
本稿では,224kサンプルからなる2つの高品質翻訳バングラインストラクションデータセットを提案する。
論文 参考訳(メタデータ) (2024-10-28T16:44:02Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - On Evaluation of Bangla Word Analogies [0.8658596218544772]
本稿では,Bangla単語の埋め込み品質を評価するための高品質なデータセットを提案する。
世界で7番目に普及した言語であるにもかかわらず、Banglaは低リソース言語であり、人気のあるNLPモデルはうまく機能しない。
論文 参考訳(メタデータ) (2023-04-10T14:27:35Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - Incongruity Detection between Bangla News Headline and Body Content
through Graph Neural Network [0.0]
ニュースの見出しと内容の一致は、読者を惹きつけるのに使用される詐欺の一般的な方法である。
本稿では,Banglaニュースの見出しとコンテンツ段落の類似性と矛盾を効果的に学習するグラフベースの階層型デュアルエンコーダモデルを提案する。
提案したBanglaグラフベースのニューラルネットワークモデルは,さまざまなBanglaニュースデータセットに対して90%以上の精度を実現する。
論文 参考訳(メタデータ) (2022-10-26T20:57:45Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - End-to-End Natural Language Understanding Pipeline for Bangla
Conversational Agents [0.43012765978447565]
本稿では,バングラ語とバングラ語でコミュニケーション可能なビジネスアシスタントを構築するための新しい手法を提案する。
Rasa Open Source Framework、fastText組み込み、Polyglot組み込み、Fraskなどのシステムをビルディングブロックとして使用しています。
本稿では,意図分類と実体抽出のためのパイプラインを提案する。
論文 参考訳(メタデータ) (2021-07-12T16:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。