論文の概要: Advancing Bangla Machine Translation Through Informal Datasets
- arxiv url: http://arxiv.org/abs/2512.13487v1
- Date: Mon, 15 Dec 2025 16:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.744408
- Title: Advancing Bangla Machine Translation Through Informal Datasets
- Title(参考訳): インフォーマルデータセットによるバングラ機械翻訳の高速化
- Authors: Ayon Roy, Risat Rahaman, Sadat Shibly, Udoy Saha Joy, Abdulla Al Kafi, Farig Yousuf Sadeque,
- Abstract要約: バングラ語は世界で6番目に広く話されている言語であり、約2億2400万人の母語話者がいる。
ほとんどのオンラインリソースは英語で書かれており、バングラ語に翻訳されていないことが多い。
本研究は,デジタルワールドにおけるバングラ語話者の非公式翻訳とアクセシビリティ向上に着目して,バングラ語機械翻訳の進歩を目指す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bangla is the sixth most widely spoken language globally, with approximately 234 million native speakers. However, progress in open-source Bangla machine translation remains limited. Most online resources are in English and often remain untranslated into Bangla, excluding millions from accessing essential information. Existing research in Bangla translation primarily focuses on formal language, neglecting the more commonly used informal language. This is largely due to the lack of pairwise Bangla-English data and advanced translation models. If datasets and models can be enhanced to better handle natural, informal Bangla, millions of people will benefit from improved online information access. In this research, we explore current state-of-the-art models and propose improvements to Bangla translation by developing a dataset from informal sources like social media and conversational texts. This work aims to advance Bangla machine translation by focusing on informal language translation and improving accessibility for Bangla speakers in the digital world.
- Abstract(参考訳): バングラ語は世界で6番目に広く話されている言語であり、約2億2400万人の母語話者がいる。
しかし、オープンソースのBanglaマシン翻訳の進歩は依然として限られている。
ほとんどのオンラインリソースは英語で書かれており、バングラ語に翻訳されていないことが多い。
バングラ語翻訳における既存の研究は主にフォーマルな言語に焦点を当てており、より一般的に使われる非公式な言語を無視している。
これは主に、ペアワイズ・バングラ・イングリッシュのデータと高度な翻訳モデルがないためである。
データセットとモデルを拡張して、自然で非公式なBanglaをうまく扱えるようにすれば、何百万人もの人々がオンライン情報アクセスの改善に恩恵を受けるだろう。
本研究では,現在の最先端モデルについて検討し,ソーシャルメディアや会話テキストなどの非公式な情報源からデータセットを作成することにより,バングラ翻訳の改良を提案する。
本研究は,デジタルワールドにおけるバングラ語話者の非公式翻訳とアクセシビリティ向上に着目して,バングラ語機械翻訳の進歩を目指す。
関連論文リスト
- BanglaLlama: LLaMA for Bangla Language [1.0710988917914002]
バングラ語は世界で5番目に大きな言語であるが、依然として「低リソース」言語である。
既存の事前訓練された言語モデルは、しばしばBangla Language Processing (BLP)タスクでうまく機能するのに苦労する。
本稿では,224kサンプルからなる2つの高品質翻訳バングラインストラクションデータセットを提案する。
論文 参考訳(メタデータ) (2024-10-28T16:44:02Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - On Evaluation of Bangla Word Analogies [0.8658596218544772]
本稿では,Bangla単語の埋め込み品質を評価するための高品質なデータセットを提案する。
世界で7番目に普及した言語であるにもかかわらず、Banglaは低リソース言語であり、人気のあるNLPモデルはうまく機能しない。
論文 参考訳(メタデータ) (2023-04-10T14:27:35Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - Incongruity Detection between Bangla News Headline and Body Content
through Graph Neural Network [0.0]
ニュースの見出しと内容の一致は、読者を惹きつけるのに使用される詐欺の一般的な方法である。
本稿では,Banglaニュースの見出しとコンテンツ段落の類似性と矛盾を効果的に学習するグラフベースの階層型デュアルエンコーダモデルを提案する。
提案したBanglaグラフベースのニューラルネットワークモデルは,さまざまなBanglaニュースデータセットに対して90%以上の精度を実現する。
論文 参考訳(メタデータ) (2022-10-26T20:57:45Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - End-to-End Natural Language Understanding Pipeline for Bangla
Conversational Agents [0.43012765978447565]
本稿では,バングラ語とバングラ語でコミュニケーション可能なビジネスアシスタントを構築するための新しい手法を提案する。
Rasa Open Source Framework、fastText組み込み、Polyglot組み込み、Fraskなどのシステムをビルディングブロックとして使用しています。
本稿では,意図分類と実体抽出のためのパイプラインを提案する。
論文 参考訳(メタデータ) (2021-07-12T16:09:22Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - BanglaBERT: Combating Embedding Barrier for Low-Resource Language
Understanding [1.7000879291900044]
私たちはバングラ自然言語理解モデルを構築し、インターネット上のトップバングラのサイトから収集した18.6gbのデータに基づいてトレーニングした。
本モデルは,多言語ベースラインを上回り,前回の結果を1~6%上回った。
我々は、記述スクリプトを高リソースと共有しない低リソース言語のパフォーマンスを損なう多言語モデルの主な欠点を特定します。
論文 参考訳(メタデータ) (2021-01-01T09:28:45Z) - Improving Sentiment Analysis over non-English Tweets using Multilingual
Transformers and Automatic Translation for Data-Augmentation [77.69102711230248]
我々は、英語のつぶやきを事前学習し、自動翻訳を用いてデータ拡張を適用して非英語の言語に適応する多言語トランスフォーマーモデルを提案する。
我々のフランス語、スペイン語、ドイツ語、イタリア語での実験は、この手法が非英語のツイートの小さなコーパスよりも、トランスフォーマーの結果を改善する効果的な方法であることを示唆している。
論文 参考訳(メタデータ) (2020-10-07T15:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。