論文の概要: Towards High-Quality Machine Translation for Kokborok: A Low-Resource Tibeto-Burman Language of Northeast India
- arxiv url: http://arxiv.org/abs/2604.19778v1
- Date: Sat, 28 Mar 2026 18:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.06989
- Title: Towards High-Quality Machine Translation for Kokborok: A Low-Resource Tibeto-Burman Language of Northeast India
- Title(参考訳): コークバラクの高品質機械翻訳を目指して--インド北東部の低資源チベット・ビルマン語
- Authors: Badal Nyalang, Biman Debbarma,
- Abstract要約: コクボロクMT(KokborokMT)は、インド・トリプラ州で主に話されているチベット・ビルマ語(英語版)の言語であるコクボロク(ISO 639-3)の高品質なニューラルマシン翻訳(NMT)システムである。
我々は,NLLB-200蒸留600Mモデルを36,052文対からなる多ソース並列コーパス上で微調整する。
我々の最良のシステムは、事前に公表された結果よりも大幅に改善されたテストセット上でのBLEUスコア17.30と38.56を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present KokborokMT, a high-quality neural machine translation (NMT) system for Kokborok (ISO 639-3), a Tibeto-Burman language spoken primarily in Tripura, India with approximately 1.5 million speakers. Despite its status as an official language of Tripura, Kokborok has remained severely under-resourced in the NLP community, with prior machine translation attempts limited to systems trained on small Bible-derived corpora achieving BLEU scores below 7. We fine-tune the NLLB-200-distilled-600M model on a multi-source parallel corpus comprising 36,052 sentence pairs: 9,284 professionally translated sentences from the SMOL dataset, 1,769 Bible-domain sentences from WMT shared task data, and 24,999 synthetic back-translated pairs generated via Gemini Flash from Tatoeba English source sentences. We introduce as a new language token for Kokborok in the NLLB framework. Our best system achieves BLEU scores of 17.30 and 38.56 on held-out test sets, representing substantial improvements over prior published results. Human evaluation by three annotators yields mean adequacy of 3.74/5 and fluency of 3.70/5, with substantial agreement between trained evaluators.
- Abstract(参考訳): 約150万人の話者を抱えるインド・トリプラで主に話されているチベット・ビルマン語であるKokborok(ISO 639-3)の高品質ニューラルネットワーク翻訳(NMT)システムであるKokborokMTについて紹介する。
Tripura の公式言語としての地位にあるにもかかわらず、Kokborok は NLP コミュニティで過小評価されており、以前の機械翻訳の試みは小さな聖書由来のコーパスで訓練されたシステムに限られていた。
NLLB-200-distilled-600M model on a multi-source parallel corpus: September284 professionally translation sentences from the SMOL dataset, 1,769 Bible-domain sentences from WMT shared task data, and 24,999 synthetic back-trantrantransferase pairs generated through Gemini Flash from Tatoeba English source sentences。
我々はNLLBフレームワークでKokborokの新しい言語トークンとして紹介する。
我々の最良のシステムは、事前に公表された結果よりも大幅に改善されたテストセット上でのBLEUスコア17.30と38.56を達成する。
3つのアノテータによる人間の評価は、平均で3.74/5の精度と3.70/5の流線型であり、訓練された評価者の間ではかなりの一致がある。
関連論文リスト
- Developing an English-Efik Corpus and Machine Translation System for Digitization Inclusion [0.0]
本研究は、英語・英語翻訳における最先端多言語ニューラルマシン翻訳モデルの有効性を評価する。
我々はこのデータセット上でmT5多言語モデルとNLLB200モデルの両方を微調整した。
本研究は,低リソース言語のための実用的な機械翻訳ツールの開発の可能性を示すものである。
論文 参考訳(メタデータ) (2026-03-16T06:17:22Z) - NusaMT-7B: Machine Translation for Low-Resource Indonesian Languages with Large Language Models [2.186901738997927]
本稿では,低リソースインドネシア語用機械翻訳モデルであるNusaMT-7Bを紹介する。
提案手法は, 単言語データ, Supervised Fine-Tuning (SFT) , 自己学習, LLMベースのデータクリーナーを併用し, 並列文のノイズを低減する。
この結果から,LLMの微調整により,低リソース言語への翻訳品質が向上し,言語保存や異文化間コミュニケーションに寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-10T11:33:25Z) - Machine Translation for Nko: Tools, Corpora and Baseline Results [3.993732024424016]
複数の西アフリカ諸国で何千万人もの人々が話しているNkoの機械翻訳システムはありません。
我々は,Nkoや他の言語を対象とした機械翻訳システムの開発を目的とした,一連のツール,リソース,ベースラインの成果を示す。
論文 参考訳(メタデータ) (2023-10-24T08:27:56Z) - The eBible Corpus: Data and Model Benchmarks for Bible Translation for
Low-Resource Languages [1.4681482563848867]
聖書翻訳(BT)の作業は現在、3,000以上の非常に低リソース言語で進行中である。
聖書の一部の1009の翻訳を含むデータセットを75の言語ファミリーで853の異なる言語で作成する。
BTデータセットのベンチマークに加えて、NLLB(No Language Left Behind)ニューラルマシン翻訳(NMT)モデルに基づいて構築されたモデルパフォーマンスベンチマークを導入する。
論文 参考訳(メタデータ) (2023-04-19T18:52:49Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。