論文の概要: NepTam: A Nepali-Tamang Parallel Corpus and Baseline Machine Translation Experiments
- arxiv url: http://arxiv.org/abs/2603.14053v1
- Date: Sat, 14 Mar 2026 17:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.57224
- Title: NepTam: A Nepali-Tamang Parallel Corpus and Baseline Machine Translation Experiments
- Title(参考訳): NepTam:ネパールのTamang並列コーパスとベースライン機械翻訳実験
- Authors: Rupak Raj Ghimire, Bipesh Subedi, Balaram Prasain, Prakash Poudyal, Praveen Acharya, Nischal Karki, Rupak Tiwari, Rishikesh Kumar Sharma, Jenny Poudel, Bal Krishna Bal,
- Abstract要約: この研究は、20Kの金標準パラレルコーパスであるNepTam20Kと80Kの合成ネパール・タングパラレルコーパスであるNepTam80Kを開発した。
データセットはネパールのニュースやオンラインソースからのデータスクレーピングを含むパイプラインを通じて作成された。
このデータセットは、農業、健康、教育と技術、文化、一般コミュニケーションの5つの領域をカバーしている。
- 参考スコア(独自算出の注目度): 2.0841194064751396
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern Translation Systems heavily rely on high-quality, large parallel datasets for state-of-the-art performance. However, such resources are largely unavailable for most of the South Asian languages. Among them, Nepali and Tamang fall into such category, with Tamang being among the least digitally resourced languages in the region. This work addresses the gap by developing NepTam20K, a 20K gold standard parallel corpus, and NepTam80K, an 80K synthetic Nepali-Tamang parallel corpus, both sentence-aligned and designed to support machine translation. The datasets were created through a pipeline involving data scraping from Nepali news and online sources, pre-processing, semantic filtering, balancing for tense and polarity (in NepTam20K dataset), expert translation into Tamang by native speakers of the language, and verification by an expert Tamang linguist. The dataset covers five domains: Agriculture, Health, Education and Technology, Culture, and General Communication. To evaluate the dataset, baseline machine translation experiments were carried out using various multilingual pre-trained models: mBART, M2M-100, NLLB-200, and a vanilla Transformer model. The fine-tuning on the NLLB-200 achieved the highest sacreBLEU scores of 40.92 (Nepali-Tamang) and 45.26 (Tamang-Nepali).
- Abstract(参考訳): 現代翻訳システムは、最先端のパフォーマンスのために高品質で大規模な並列データセットに大きく依存している。
しかし、ほとんどの南アジアの言語ではそのような資源は利用できない。
そのうちネパール語とタマル語はそのようなカテゴリーに分類され、タマル語は地域では最もデジタル資源の少ない言語である。
この研究は、20KゴールドのパラレルコーパスであるNepTam20Kと80K合成ネパール・タングパラレルコーパスであるNepTam80Kの開発によるギャップに対処する。
データセットは、ネパールのニュースやオンラインソースからのデータスクレーピング、前処理、セマンティックフィルタリング、緊張と極性のバランス(NepTam20Kデータセット)、言語のネイティブスピーカーによるTamangへの専門家翻訳、専門家のTamang言語学者による検証を含むパイプラインを通じて作成された。
このデータセットは、農業、健康、教育と技術、文化、一般コミュニケーションの5つの領域をカバーしている。
このデータセットを評価するために、mBART、M2M-100、NLLB-200、バニラトランスフォーマーモデルといった多言語事前学習モデルを用いてベースライン機械翻訳実験を行った。
NLLB-200の微調整は40.92 (Nepali-Tamang) と45.26 (Tamang-Nepali) の最高スコアを達成した。
関連論文リスト
- Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages [11.540702510360985]
我々は、8つのインドの言語にまたがる280万行以上の英語とインデックスとインデックスの高品質な翻訳ペアを含む並列コーパスを作成します。
我々は、このコーパスを用いてNMTモデルを微調整し、評価し、ドメイン内のタスクで利用可能な他のすべてのモデルを超えます。
論文 参考訳(メタデータ) (2024-12-12T07:40:55Z) - Development of Pre-Trained Transformer-based Models for the Nepali Language [0.0]
全世界で約3200万人が話しているネパール語は、この領域では著しく過小評価されている。
ネパール語コーパスの約2.4倍の27.5GBのテキストデータを収集した。
我々のモデルは、Nep-gLUEベンチマークで既存の最良のモデルよりも2ポイント優れ、95.60得点、テキスト生成タスクで既存のモデルよりも優れています。
論文 参考訳(メタデータ) (2024-11-24T06:38:24Z) - A Tulu Resource for Machine Translation [3.038642416291856]
英語・トゥルー語翻訳のための最初の並列データセットを提案する。
トゥル語はインド南西部で約250万人が話されている。
パラレル・イングリッシュ・トゥルデータを使わずにトレーニングした我々のイングリッシュ・トゥルシステムは、Google Translateを19のBLEUポイントで上回っている。
論文 参考訳(メタデータ) (2024-03-28T04:30:07Z) - Memory-efficient NLLB-200: Language-specific Expert Pruning of a
Massively Multilingual Machine Translation Model [92.91310997807936]
NLLB-200は202言語をカバーする多言語ニューラルネットワークモデルである。
そこで本研究では,最大80%のエキスパートの除去を,それ以上の微調整を行なわずに行うことができるプルーニング法を提案する。
論文 参考訳(メタデータ) (2022-12-19T19:29:40Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - PanGu-$\alpha$: Large-scale Autoregressive Pretrained Chinese Language
Models with Auto-parallel Computation [58.31465205357637]
PanGu-$alpha$という,最大200億パラメータの大規模オートレグレッシブ言語モデルをトレーニングするプラクティスを紹介します。
PanGu-$alpha$はMindSporeの下で開発され、2048 Ascend 910 AIプロセッサのクラスタでトレーニングされている。
論文 参考訳(メタデータ) (2021-04-26T06:59:36Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Unsupervised Parallel Corpus Mining on Web Data [53.74427402568838]
並列コーパスを教師なしでインターネットからマイニングするためのパイプラインを提示する。
我々のシステムは、監督されたアプローチと比較しても、39.81と38.95のBLEUスコアを新たに生成する。
論文 参考訳(メタデータ) (2020-09-18T02:38:01Z) - An Augmented Translation Technique for low Resource language pair:
Sanskrit to Hindi translation [0.0]
本研究では、低リソース言語ペアに対してZST(Zero Shot Translation)を検査する。
サンスクリット語からヒンディー語への翻訳では、データが不足しているのと同じアーキテクチャがテストされている。
データストレージのメモリ使用量を削減するため,単語埋め込みの次元化を行う。
論文 参考訳(メタデータ) (2020-06-09T17:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。