論文の概要: Towards Santali Linguistic Inclusion: Building the First Santali-to-English Translation Model using mT5 Transformer and Data Augmentation
- arxiv url: http://arxiv.org/abs/2411.19726v1
- Date: Fri, 29 Nov 2024 14:17:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:18.424622
- Title: Towards Santali Linguistic Inclusion: Building the First Santali-to-English Translation Model using mT5 Transformer and Data Augmentation
- Title(参考訳): サンタリ言語包含に向けて:mT5変換器とデータ拡張を用いた最初のサンタリ語から英語への翻訳モデルの構築
- Authors: Syed Mohammed Mostaque Billah, Ateya Ahmed Subarna, Sudipta Nandi Sarna, Ahmad Shawkat Wasit, Anika Fariha, Asif Sushmit, Arig Yousuf Sadeque,
- Abstract要約: インド、バングラデシュ、ブータン、ネパールでは700万人がサンタリ語を話す。
オーストロアシア語族のムンダ(Munda)のサブファミリーでは有名だが、サンタリは世界的な認知を欠いている。
利用可能なサンタリコーパスに基づくサンタリ翻訳モデルの構築の可能性を検討することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Around seven million individuals in India, Bangladesh, Bhutan, and Nepal speak Santali, positioning it as nearly the third most commonly used Austroasiatic language. Despite its prominence among the Austroasiatic language family's Munda subfamily, Santali lacks global recognition. Currently, no translation models exist for the Santali language. Our paper aims to include Santali to the NPL spectrum. We aim to examine the feasibility of building Santali translation models based on available Santali corpora. The paper successfully addressed the low-resource problem and, with promising results, examined the possibility of creating a functional Santali machine translation model in a low-resource setup. Our study shows that Santali-English parallel corpus performs better when in transformers like mt5 as opposed to untrained transformers, proving that transfer learning can be a viable technique that works with Santali language. Besides the mT5 transformer, Santali-English performs better than Santali-Bangla parallel corpus as the mT5 has been trained in way more English data than Bangla data. Lastly, our study shows that with data augmentation, our model performs better.
- Abstract(参考訳): インド、バングラデシュ、ブータン、ネパールの約700万人がサンタリ語を話す。
オーストロアシア語族のムンダ(Munda)のサブファミリーでは有名だが、サンタリは世界的な認知を欠いている。
現在、サンターリ語への翻訳モデルは存在しない。
本稿はサンタリをNPLスペクトルに含めることを目的としている。
利用可能なサンタリコーパスに基づくサンタリ翻訳モデルの構築の可能性を検討することを目的としている。
本稿は,低リソース問題に対処し,将来性のある結果を得て,低リソース設定で機能的なサンタリ機械翻訳モデルを作成する可能性について検討した。
本研究は,mt5などの変圧器では非訓練の変圧器に比べて,サンタリ語のパラレルコーパスが優れており,変換学習がサンタリ語と併用可能な技術であることが証明された。
mT5変換器の他に、サンタリ・イングリッシュはサンタリ・バンガラ並列コーパスよりも優れており、mT5はバングラデータよりも多くの英語データで訓練されている。
最後に,データ拡張により,モデルの性能が向上することを示す。
関連論文リスト
- Adapting Multilingual LLMs to Low-Resource Languages using Continued Pre-training and Synthetic Corpus [0.9674145073701153]
ヒンディー語と英語の両方をサポートするバイリンガルSLMであるNemotron-Mini-Hindi 4Bを紹介する。
ベースモデルとインストラクションモデルの両方がヒンディー語のベンチマークで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-18T18:35:19Z) - Multilingual Sentence-T5: Scalable Sentence Encoders for Multilingual Applications [4.240899165468488]
NLIに基づく多言語文埋め込みのモデルとして,Multilingual Sentence T5(m-ST5)を導入する。
低ランク適応(LoRA)技術を用いることで、モデルのサイズを570億のパラメータに拡張することに成功した。
特に、リソースが少ない言語や、英語との言語的類似性が低い言語は、パラメータの増加の恩恵を受けていた。
論文 参考訳(メタデータ) (2024-03-26T09:31:55Z) - A Benchmark for Learning to Translate a New Language from One Grammar
Book [41.1108119653453]
MTOBは英語とカラマン語を翻訳するためのベンチマークである。
モデルは、人間の読みやすい文法説明書から言語を学ぶように求めている。
現状のLLMを用いたベースラインは有望であるが,人間の性能には劣っていることを示す。
論文 参考訳(メタデータ) (2023-09-28T16:32:28Z) - Improving Neural Machine Translation of Indigenous Languages with
Multilingual Transfer Learning [7.893831644671974]
本稿では,バイリンガルおよびマルチリンガル事前訓練されたMTモデルを用いて,スペイン語から10の南米先住民言語に翻訳する手法について述べる。
私たちのモデルは、新しいSOTAを考慮に入れている10の言語ペアのうち5つに設定し、これらの5つのペアのうちの1つのパフォーマンスを倍増させました。
論文 参考訳(メタデータ) (2022-05-14T07:30:03Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - Improving Sentiment Analysis over non-English Tweets using Multilingual
Transformers and Automatic Translation for Data-Augmentation [77.69102711230248]
我々は、英語のつぶやきを事前学習し、自動翻訳を用いてデータ拡張を適用して非英語の言語に適応する多言語トランスフォーマーモデルを提案する。
我々のフランス語、スペイン語、ドイツ語、イタリア語での実験は、この手法が非英語のツイートの小さなコーパスよりも、トランスフォーマーの結果を改善する効果的な方法であることを示唆している。
論文 参考訳(メタデータ) (2020-10-07T15:44:55Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z) - Low Resource Neural Machine Translation: A Benchmark for Five African
Languages [14.97774471012222]
英語と5つのアフリカのLRLペア(Swahili, Amharic, Tigrigna, Oromo, Somali)のNMTをベンチマークする。
ベースライン単一言語対 NMT モデルと半教師付き学習,移動学習,多言語モデリングを比較した。
平均的なBLEUスコアでは、多言語的アプローチは10の翻訳方向のうち6つで最大5点までの最大利得を示す。
論文 参考訳(メタデータ) (2020-03-31T17:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。