論文の概要: BanglaSTEM: A Parallel Corpus for Technical Domain Bangla-English Translation
- arxiv url: http://arxiv.org/abs/2511.03498v1
- Date: Wed, 05 Nov 2025 14:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.446684
- Title: BanglaSTEM: A Parallel Corpus for Technical Domain Bangla-English Translation
- Title(参考訳): BanglaSTEM: 技術的ドメインバングラ英語翻訳のための並列コーパス
- Authors: Kazi Reyazul Hasan, Mubasshira Musarrat, A. B. M. Alim Al Islam, Muhammad Abdullah Adnan,
- Abstract要約: 既存のバングラ語翻訳システムは技術的用語に苦慮している。
5000の文対を慎重に選択したBanglaSTEMを提示する。
我々は、BanglaSTEM上でT5ベースの翻訳モデルをトレーニングし、コード生成と数学問題の解法という2つのタスクでそれをテストする。
- 参考スコア(独自算出の注目度): 4.0814321904870905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models work well for technical problem solving in English but perform poorly when the same questions are asked in Bangla. A simple solution would be to translate Bangla questions into English first and then use these models. However, existing Bangla-English translation systems struggle with technical terms. They often mistranslate specialized vocabulary, which changes the meaning of the problem and leads to wrong answers. We present BanglaSTEM, a dataset of 5,000 carefully selected Bangla-English sentence pairs from STEM fields including computer science, mathematics, physics, chemistry, and biology. We generated over 12,000 translations using language models and then used human evaluators to select the highest quality pairs that preserve technical terminology correctly. We train a T5-based translation model on BanglaSTEM and test it on two tasks: generating code and solving math problems. Our results show significant improvements in translation accuracy for technical content, making it easier for Bangla speakers to use English-focused language models effectively. Both the BanglaSTEM dataset and the trained translation model are publicly released at https://huggingface.co/reyazul/BanglaSTEM-T5.
- Abstract(参考訳): 大きな言語モデルは、英語で技術的な問題を解決するのにうまく機能するが、同じ質問がBanglaで聞かれると、うまく機能しない。
単純な解決策は、まずバングラの質問を英語に翻訳し、次にこれらのモデルを使用することである。
しかし、既存のバングラ語翻訳システムは技術的用語に苦慮している。
彼らはしばしば特別な語彙を誤訳し、問題の意味を変え、間違った答えをもたらす。
本稿では,計算機科学,数学,物理,化学,生物学などを含むSTEM分野から,5000の文対を慎重に選択したBanglaSTEMを提案する。
言語モデルを用いて12,000以上の翻訳を生成し,人間の評価器を用いて,技術的用語を正しく保存する高品質なペアを選択した。
我々は、BanglaSTEM上でT5ベースの翻訳モデルをトレーニングし、コード生成と数学問題の解法という2つのタスクでそれをテストする。
本研究は,Bangla話者が英語に焦点を絞った言語モデルを効果的に利用しやすくするため,技術内容の翻訳精度が大幅に向上したことを示す。
BanglaSTEMデータセットとトレーニングされた翻訳モデルは、https://huggingface.co/reyazul/BanglaSTEM-T5で公開されている。
関連論文リスト
- BanglaByT5: Byte-Level Modelling for Bangla [3.9018931027384056]
ここでは,Banglaに適した最初のバイトレベルのエンコーダデコーダモデルであるBanglaByT5を紹介する。
BanglaByT5は、GoogleのByT5アーキテクチャの小さなバージョンをベースに構築され、高品質の文学記事と新聞記事を組み合わせた14GBのキュレートコーパスで事前訓練されている。
論文 参考訳(メタデータ) (2025-05-21T07:39:07Z) - Bangla Grammatical Error Detection Leveraging Transformer-based Token Classification [0.0]
世界で7番目に話されている言語であるバングラ語における自動文法チェッカーの開発について検討する。
本手法では,トークン分類問題としてタスクを分割し,最先端のトランスフォーマーモデルを活用する。
本システムは,様々な情報源から得られた25,000以上のテキストからなるデータセットを用いて評価する。
論文 参考訳(メタデータ) (2024-11-13T05:22:45Z) - BanglaLlama: LLaMA for Bangla Language [1.0710988917914002]
バングラ語は世界で5番目に大きな言語であるが、依然として「低リソース」言語である。
既存の事前訓練された言語モデルは、しばしばBangla Language Processing (BLP)タスクでうまく機能するのに苦労する。
本稿では,224kサンプルからなる2つの高品質翻訳バングラインストラクションデータセットを提案する。
論文 参考訳(メタデータ) (2024-10-28T16:44:02Z) - Leveraging LLMs for Bangla Grammar Error Correction:Error Categorization, Synthetic Data, and Model Evaluation [3.9018931027384056]
世界第5位の言語であるにもかかわらず、バングラの文法的誤り訂正(GEC)は未発達のままである。
まず、バングラで12のエラークラスを広範囲に分類し、実世界のエラーを収集するためにネイティブなバングラ話者を調査します。
次に,規則に基づくノイズ注入法を考案し,正しい文に対応する文法的不正確な文を生成する。
このデータセットは、バングラの GEC のタスクのための命令チューニング LLM に使用される。
論文 参考訳(メタデータ) (2024-06-20T13:09:29Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - ParroT: Translating during Chat using Large Language Models tuned with
Human Translation and Feedback [90.20262941911027]
ParroTはチャット中の翻訳機能を強化し、規制するフレームワークである。
具体的には、ParroTは、翻訳データを命令フォロースタイルに書き換える。
本稿では,ParroTモデルを微調整するための3つの命令タイプを提案する。
論文 参考訳(メタデータ) (2023-04-05T13:12:00Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - BanglaNLG: Benchmarks and Resources for Evaluating Low-Resource Natural
Language Generation in Bangla [21.47743471497797]
本研究はバングラの自然言語生成モデルを評価するためのベンチマークを示す。
BanglaNLGベンチマークでは,3つの条件付きテキスト生成タスクを集約する。
クリーンコーパス27.5GBのBanglaデータを用いて、Banglaのシーケンス・ツー・シーケンス・トランスフォーマーモデルであるBanglaT5を事前訓練する。
BanglaT5はすべてのタスクで最先端のパフォーマンスを実現し、mT5(ベース)を最大5.4%上回っている。
論文 参考訳(メタデータ) (2022-05-23T06:54:56Z) - Lite Training Strategies for Portuguese-English and English-Portuguese
Translation [67.4894325619275]
ポルトガル語・英語・ポルトガル語の翻訳タスクにおいて,T5などの事前学習モデルの使用について検討する。
本稿では,ポルトガル語の文字,例えばダイアレーシス,急性アクセント,墓のアクセントを表すために,英語のトークン化器の適応を提案する。
以上の結果から,本モデルは最新モデルと競合する性能を示しながら,控えめなハードウェアでトレーニングを行った。
論文 参考訳(メタデータ) (2020-08-20T04:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。