論文の概要: BhashaSetu: A Data-Centric Approach to Low-Resource Machine Translation
- arxiv url: http://arxiv.org/abs/2605.27050v1
- Date: Tue, 26 May 2026 14:03:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.208174
- Title: BhashaSetu: A Data-Centric Approach to Low-Resource Machine Translation
- Title(参考訳): BhashaSetu: 低リソース機械翻訳のためのデータ中心アプローチ
- Authors: Param Thakkar, Anushka Yadav, Michael Tiemann, Abhi Mehta, Akshita Bhasin, Shrinivas Khedkar,
- Abstract要約: BhashaSetuは言語的に豊かな英語である--低リソースニューラルネットワーク翻訳(NMT)における永続的なデータ制限に対処するパラレルデータセット
我々のデータセットは, ニュース, 政治, 医療, 文学, 文化など異質な情報源からの278万の文対からなる。
- 参考スコア(独自算出の注目度): 1.2546133965241097
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present BhashaSetu, a linguistically enriched English--Marathi parallel dataset addressing persistent data limitations in low-resource neural machine translation (NMT). Marathi, spoken by over 95 million people, remains underrepresented in high-quality parallel corpora across diverse domains. Our dataset comprises 2.78 million sentence pairs from heterogeneous sources including news, politics, healthcare, literature, and culture, with stemmed and lemmatized representations to support morphology-aware analysis. We benchmark multiple state-of-the-art translation models using BLEU, spBLEU, chrF++, and TER metrics, and conduct parameter-efficient fine-tuning of NLLB-200-distilled-600M using LoRA. A key finding from our ablation: corpus-level deduplication is the single largest preprocessing contributor to downstream quality (removing it reduces performance by 1.17 BLEU and 2.21 chrF++), demonstrating that disciplined cross-source corpus hygiene is a low-cost, high-impact intervention for low-resource, morphologically rich languages. The dataset is publicly released to promote reproducible and linguistically informed low-resource NMT research.
- Abstract(参考訳): 我々は、低リソースニューラルネットワーク翻訳(NMT)における永続的なデータ制限に対処する言語的に豊富な英語であるBhashaSetuを提案する。
マラタイ語は95万人以上の人々が話しており、様々な領域で高品質なパラレルコーパスで表現されている。
我々のデータセットは, ニュース, 政治, 医療, 文学, 文化など異質な情報源からの278万の文対からなる。
BLEU, spBLEU, chrF++, TER を用いて複数の最先端翻訳モデルをベンチマークし, LoRA を用いて NLLB-200-distilled-600M のパラメータ効率の微調整を行う。
コーパスレベルの重複(corpus-level deduplication)は、ダウンストリーム品質(パフォーマンスを1.17 BLEUと2.21 chrF++に低下させる)に対する単一の最大の前処理コントリビュータである。
このデータセットは、再現可能で言語的に知らされた低リソースNMT研究を促進するために、一般公開されている。
関連論文リスト
- Omnilingual MT: Machine Translation for 1,600 Languages [58.66170104105936]
我々は,1600以上の言語をサポートする最初の機械翻訳システムであるOmnilingual Machine Translation (OMT)を提案する。
このスケールは、大規模な公開多言語コーパスと新たに作成されたデータセットを統合する包括的なデータ戦略によって実現されている。
OMTモデルは言語間移動を改善し、1,600の評価において、MTのパズルの「理解」部分を解くのに近づいている。
論文 参考訳(メタデータ) (2026-03-17T09:43:42Z) - NagaNLP: Bootstrapping NLP for Low-Resource Nagamese Creole with Human-in-the-Loop Synthetic Data [6.689013010749215]
NagaNLPは、Nagameseの包括的なオープンソースツールキットである。
LLM駆動だが人為的な合成データ生成に依存している。
私たちは差別モデルと生成モデルの両方を訓練します。
論文 参考訳(メタデータ) (2025-12-14T04:08:26Z) - Leveraging the Cross-Domain & Cross-Linguistic Corpus for Low Resource NMT: A Case Study On Bhili-Hindi-English Parallel Corpus [3.435561406656216]
インドにおける言語的な多様性は、特にビリ語のような少数民族言語に対して、機械翻訳に重大な課題をもたらす。
本稿では,Bhili-Hindi-English Parallel Corpus (BH EPC)について述べる。
BH EPCは教育、管理、ニュースといった重要な領域にまたがっており、低リソース機械翻訳の研究のための貴重なベンチマークを確立している。
論文 参考訳(メタデータ) (2025-11-01T10:39:56Z) - From Priest to Doctor: Domain Adaptation for Low-Resource Neural Machine Translation [3.666125285899499]
多くの言語は、高性能汎用ニューラルネットワーク翻訳(NMT)モデルを訓練するのに不十分なデータを持っている。
世界中の言語の多くは、高性能汎用ニューラルマシン翻訳(NMT)モデルをトレーニングするのに不十分なデータを持っている。
論文 参考訳(メタデータ) (2024-12-01T21:06:08Z) - When Does Monolingual Data Help Multilingual Translation: The Role of Domain and Model Scale [73.69252847606212]
自動符号化(DAE)と逆翻訳(BT)が機械翻訳(MMT)に与える影響について検討する。
モノリンガルデータは一般的にMTMに役立つが、モデルは驚くほどドメインミスマッチ、特により小さなモデルスケールでは不安定である。
スケールが大きくなるにつれて、DAEは並列のみのベースラインを90Mで過小評価することから、BTのパフォーマンスを1.6Bで収束させ、低リソースでそれを上回るものへと移行する。
論文 参考訳(メタデータ) (2023-05-23T14:48:42Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。