論文の概要: Monolingual and Parallel Corpora for Kangri Low Resource Language
- arxiv url: http://arxiv.org/abs/2103.11596v1
- Date: Mon, 22 Mar 2021 05:52:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 05:52:11.613780
- Title: Monolingual and Parallel Corpora for Kangri Low Resource Language
- Title(参考訳): カングリ低資源言語のための単言語および並列コーパス
- Authors: Shweta Chauhan, Shefali Saxena, Philemon Daniel
- Abstract要約: 本稿では,国連教育科学文化機関(unesco)に登録されているヒマカリ低資源絶滅危惧言語kangri(iso 639-3xnr)のデータセットを提案する。
コーパスは1,81,552のモノリンガルと27,362のヒンディー・カングリ・パラレルコーパスを含む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper we present the dataset of Himachali low resource endangered
language, Kangri (ISO 639-3xnr) listed in the United Nations Educational,
Scientific and Cultural Organization (UNESCO). The compilation of kangri corpus
has been a challenging task due to the non-availability of the digitalized
resources. The corpus contains 1,81,552 Monolingual and 27,362 Hindi-Kangri
Parallel corpora. We shared pre-trained kangri word embeddings. We also
reported the Bilingual Evaluation Understudy (BLEU) score and Metric for
Evaluation of Translation with Explicit ORdering (METEOR) score of Statistical
Machine Translation (SMT) and Neural Machine Translation (NMT) results for the
corpus. The corpus is freely available for non-commercial usages and research.
To the best of our knowledge, this is the first Himachali low resource
endangered language corpus. The resources are available at
(https://github.com/chauhanshweta/Kangri_corpus)
- Abstract(参考訳): 本稿では,国連教育科学文化機関(ユネスコ)に登録されている,ヒマラリ低資源絶滅危惧言語Kangri(ISO 639-3xnr)のデータセットについて述べる。
kangriコーパスのコンパイルは、デジタル化リソースが利用できないため、難しい課題となっている。
コーパスには1,81,552の単言語と27,362のヒンディー・カングリ並列コーパスが含まれる。
トレーニング済みのkangri単語の埋め込みを共有しました。
また,bilingual evaluation understudy (bleu) とmetrics for evaluation of translation with explicit order (meteor) score of statistical machine translation (smt) と neural machine translation (nmt) について報告した。
コーパスは非商業的利用と研究のために無料で利用できる。
私たちの知る限りでは、これがヒマカリ初の低リソース絶滅危惧言語コーパスです。
リソースはhttps://github.com/chauhanshweta/Kangri_corpus)。
関連論文リスト
- NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - SAHAAYAK 2023 -- the Multi Domain Bilingual Parallel Corpus of Sanskrit
to Hindi for Machine Translation [0.0]
コーパスには、サンスクリットとヒンディー語の間の合計1.5万の文対が含まれている。
複数のドメインからのデータは、ニュース、デイリーの会話、政治、歴史、スポーツ、古代インド文学を含むコーパスに組み込まれている。
論文 参考訳(メタデータ) (2023-06-27T11:06:44Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Finetuning a Kalaallisut-English machine translation system using
web-crawled data [6.85316573653194]
西グリーンランド語(西グリーンランド語、英語: West Greenlandic)は、グリーンランドで約56,000人が話している極低資源の合成言語である。
そこで我々は,約30の多言語WebサイトからのWebcrawled pseudoparallel文を用いて,事前訓練されたKalaallisut-to- English neural machine translation (NMT)システムを微調整する。
論文 参考訳(メタデータ) (2022-06-05T17:56:55Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Crowdsourcing Parallel Corpus for English-Oromo Neural Machine
Translation using Community Engagement Platform [0.0]
本稿では,Afaan Oromo への英語の翻訳と,その逆を Neural Machine Translation を用いて行う。
40k以上の文対からなるバイリンガルコーパスを用いて,本研究は有望な結果を示した。
論文 参考訳(メタデータ) (2021-02-15T13:22:30Z) - AI4Bharat-IndicNLP Corpus: Monolingual Corpora and Word Embeddings for
Indic Languages [15.425783311152117]
IndicNLPコーパス(IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、In
これらのコーパスでトレーニングされた事前訓練された単語埋め込みを共有します。
IndicNLPの埋め込みは、複数の評価タスクにおいて、利用可能な事前訓練済みの埋め込みよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-30T20:21:02Z) - Linguistic Resources for Bhojpuri, Magahi and Maithili: Statistics about
them, their Similarity Estimates, and Baselines for Three Applications [0.6649753747542209]
Bhojpuri、Magahi、Maithiliはインドのプルヴァンチャル地方の低資源言語である。
我々は,これらのコーパスについて,文字,単語,音節,形態素レベルでの基本的な統計的尺度を算出した。
結果は標準ヒンディー語コーパスと比較された。
論文 参考訳(メタデータ) (2020-04-29T03:58:55Z) - Practical Comparable Data Collection for Low-Resource Languages via
Images [126.64069379167975]
本稿では,モノリンガルアノテータを用いた低リソース言語のための高品質な同等のトレーニングデータをキュレートする手法を提案する。
本手法では, ソースとターゲット言語間のピボットとして, 慎重に選択した画像の集合を用いて, 両方の言語でその画像のキャプションを独立に取得する。
本手法で作成した英ヒンディー語対応コーパスの人間による評価では、対の81.1%が許容される翻訳であり、対の2.47%が全く翻訳ではない。
論文 参考訳(メタデータ) (2020-04-24T19:30:38Z) - Pre-training via Leveraging Assisting Languages and Data Selection for
Neural Machine Translation [49.51278300110449]
興味のある言語に対する単言語コーパスの不足を補うために,他の言語の単言語コーパスを活用することを提案する。
低リソースの日英ニューラルマシン翻訳(NMT)のケーススタディでは、中国語とフランス語のモノリンガルコーパスを活用することで、日本語と英語のモノリンガルコーパスの不足を克服できることが示された。
論文 参考訳(メタデータ) (2020-01-23T02:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。