論文の概要: SAHAAYAK 2023 -- the Multi Domain Bilingual Parallel Corpus of Sanskrit
to Hindi for Machine Translation
- arxiv url: http://arxiv.org/abs/2307.00021v1
- Date: Tue, 27 Jun 2023 11:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-09 13:49:30.760678
- Title: SAHAAYAK 2023 -- the Multi Domain Bilingual Parallel Corpus of Sanskrit
to Hindi for Machine Translation
- Title(参考訳): sahaayak 2023 -- 機械翻訳のためのサンスクリットからヒンディー語への多領域二言語並列コーパス
- Authors: Vishvajitsinh Bakrola and Jitendra Nasariwala
- Abstract要約: コーパスには、サンスクリットとヒンディー語の間の合計1.5万の文対が含まれている。
複数のドメインからのデータは、ニュース、デイリーの会話、政治、歴史、スポーツ、古代インド文学を含むコーパスに組み込まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The data article presents the large bilingual parallel corpus of
low-resourced language pair Sanskrit-Hindi, named SAHAAYAK 2023. The corpus
contains total of 1.5M sentence pairs between Sanskrit and Hindi. To make the
universal usability of the corpus and to make it balanced, data from multiple
domain has been incorporated into the corpus that includes, News, Daily
conversations, Politics, History, Sport, and Ancient Indian Literature. The
multifaceted approach has been adapted to make a sizable multi-domain corpus of
low-resourced languages like Sanskrit. Our development approach is spanned from
creating a small hand-crafted dataset to applying a wide range of mining,
cleaning, and verification. We have used the three-fold process of mining:
mining from machine-readable sources, mining from non-machine readable sources,
and collation from existing corpora sources. Post mining, the dedicated
pipeline for normalization, alignment, and corpus cleaning is developed and
applied to the corpus to make it ready to use on machine translation
algorithms.
- Abstract(参考訳): データ記事は、SAHAAYAK 2023という名前の低リソース言語ペアSanskrit-Hindiの大きなバイリンガル並列コーパスを提示する。
このコーパスは、サンスクリットとヒンディー語の間に合計1.5mの文対を含んでいる。
コーパスの普遍的な使用性とバランスをとるために、ニュース、デイリー・会話、政治、歴史、スポーツ、古代インド文学を含む複数のドメインのデータがコーパスに組み込まれている。
マルチフェイスのアプローチは、サンスクリットのような低リソースの言語でカスタマイズ可能なマルチドメインコーパスに適応している。
私たちの開発アプローチは、手作りの小さなデータセットの作成から、広範囲のマイニング、クリーニング、検証にまで及びます。
我々は,機械可読源からの採掘,非機械可読源からの採掘,既存コーパスからの照合という,3次元の採掘プロセスを用いてきた。
ポストマイニング,正規化,アライメント,コーパスクリーニングのための専用パイプラインを開発し,コーパスに適用し,機械翻訳アルゴリズムに活用できるようにした。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - EAG: Extract and Generate Multi-way Aligned Corpus for Complete Multi-lingual Neural Machine Translation [63.88541605363555]
EAG(Extract and Generate)は,バイリンガルデータから大規模かつ高品質なマルチウェイアライメントコーパスを構築するための2段階のアプローチである。
まず、異なる言語対から、非常に類似したソースやターゲット文を持つバイリンガルな例をペアリングして、候補に整列した例を抽出する。
次に、よく訓練された生成モデルを用いて、候補から最終的な整列例を生成する。
論文 参考訳(メタデータ) (2022-03-04T08:21:27Z) - Monolingual and Parallel Corpora for Kangri Low Resource Language [0.0]
本稿では,国連教育科学文化機関(unesco)に登録されているヒマカリ低資源絶滅危惧言語kangri(iso 639-3xnr)のデータセットを提案する。
コーパスは1,81,552のモノリンガルと27,362のヒンディー・カングリ・パラレルコーパスを含む。
論文 参考訳(メタデータ) (2021-03-22T05:52:51Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Leveraging Multilingual News Websites for Building a Kurdish Parallel
Corpus [0.6445605125467573]
クルド語、ソラニ語、クルマンジ語の2つの主要方言に12,327の翻訳ペアを含むコーパスを提示する。
また、英語のクルマンジ語と英語のソルニ語で1,797と650の翻訳ペアを提供している。
論文 参考訳(メタデータ) (2020-10-04T11:52:50Z) - A Multilingual Parallel Corpora Collection Effort for Indian Languages [43.62422999765863]
インドではヒンディー語、テルグ語、タミル語、マラヤラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤ語、マラティー語、パンジャービ語、英語の10言語に平行なコーパスを提示する。
コーパスは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
論文 参考訳(メタデータ) (2020-07-15T14:00:18Z) - Linguistic Resources for Bhojpuri, Magahi and Maithili: Statistics about
them, their Similarity Estimates, and Baselines for Three Applications [0.6649753747542209]
Bhojpuri、Magahi、Maithiliはインドのプルヴァンチャル地方の低資源言語である。
我々は,これらのコーパスについて,文字,単語,音節,形態素レベルでの基本的な統計的尺度を算出した。
結果は標準ヒンディー語コーパスと比較された。
論文 参考訳(メタデータ) (2020-04-29T03:58:55Z) - PMIndia -- A Collection of Parallel Corpora of Languages of India [10.434922903332415]
インドの主要言語13言語と英語を組み合わせたパラレル文からなる新しい公開コーパス(PMIndia)について述べる。
コーパスには、各言語対について最大56000の文が含まれている。
本稿では,2つの異なる自動文アライメント手法の評価を含むコーパスの構築方法について解説し,初期NMTの結果をコーパスに提示する。
論文 参考訳(メタデータ) (2020-01-27T16:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。