論文の概要: A Multilingual Parallel Corpora Collection Effort for Indian Languages
- arxiv url: http://arxiv.org/abs/2007.07691v1
- Date: Wed, 15 Jul 2020 14:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:35:18.980112
- Title: A Multilingual Parallel Corpora Collection Effort for Indian Languages
- Title(参考訳): インド言語のための多言語並列コーパス収集の試み
- Authors: Shashank Siripragada, Jerin Philip, Vinay P. Namboodiri, C V Jawahar
- Abstract要約: インドではヒンディー語、テルグ語、タミル語、マラヤラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤ語、マラティー語、パンジャービ語、英語の10言語に平行なコーパスを提示する。
コーパスは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
- 参考スコア(独自算出の注目度): 43.62422999765863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present sentence aligned parallel corpora across 10 Indian Languages -
Hindi, Telugu, Tamil, Malayalam, Gujarati, Urdu, Bengali, Oriya, Marathi,
Punjabi, and English - many of which are categorized as low resource. The
corpora are compiled from online sources which have content shared across
languages. The corpora presented significantly extends present resources that
are either not large enough or are restricted to a specific domain (such as
health). We also provide a separate test corpus compiled from an independent
online source that can be independently used for validating the performance in
10 Indian languages. Alongside, we report on the methods of constructing such
corpora using tools enabled by recent advances in machine translation and
cross-lingual retrieval using deep neural network based methods.
- Abstract(参考訳): 本稿では,インド語のシンディ語,テルグ語,タミル語,マラヤラム語,グジャラート語,ウルドゥ語,ベンガル語,オリヤ語,マラティ語,パンジャビ語,英語の10言語にまたがる並列コーパスについて述べる。
corporaは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
提示されたコーパスは、十分に大きくない、または特定のドメイン(健康など)に制限された現在のリソースを著しく拡張する。
また、独立したオンラインソースからコンパイルされた独立したテストコーパスも提供しています。
また,近年の機械翻訳や深層ニューラルネットワークを用いた言語間検索の進歩により実現されたツールを用いてコーパスを構築する手法について報告する。
関連論文リスト
- First Attempt at Building Parallel Corpora for Machine Translation of
Northeast India's Very Low-Resource Languages [7.124736158080938]
本稿では,インド北東部から13の低資源言語を対象としたバイリンガルコーパスの作成について述べる。
これらの言語に対して、最初のベンチマークニューラルネットワーク翻訳結果を提供する。
私たちはこれらのコーパスを、多数の低リソースのインド言語を含むように拡張するつもりです。
論文 参考訳(メタデータ) (2023-12-08T00:28:41Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - SAHAAYAK 2023 -- the Multi Domain Bilingual Parallel Corpus of Sanskrit
to Hindi for Machine Translation [0.0]
コーパスには、サンスクリットとヒンディー語の間の合計1.5万の文対が含まれている。
複数のドメインからのデータは、ニュース、デイリーの会話、政治、歴史、スポーツ、古代インド文学を含むコーパスに組み込まれている。
論文 参考訳(メタデータ) (2023-06-27T11:06:44Z) - PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for
Languages in India [33.31556860332746]
PMIndiaSumは、インドの言語に焦点を当てた多言語および大規模並列要約コーパスである。
私たちのコーパスは、4つの言語ファミリー、14の言語、196の言語ペアを持つ最大規模のトレーニングとテストの場を提供します。
論文 参考訳(メタデータ) (2023-05-15T17:41:15Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Samanantar: The Largest Publicly Available Parallel Corpora Collection
for 11 Indic Languages [4.3857077920223295]
Samanantarは、Indic言語で利用可能な最大の並列コーパスコレクションである。
このコレクションには、英語と11のIndic言語の間の合計4970万の文対が含まれている。
論文 参考訳(メタデータ) (2021-04-12T16:18:20Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - PMIndia -- A Collection of Parallel Corpora of Languages of India [10.434922903332415]
インドの主要言語13言語と英語を組み合わせたパラレル文からなる新しい公開コーパス(PMIndia)について述べる。
コーパスには、各言語対について最大56000の文が含まれている。
本稿では,2つの異なる自動文アライメント手法の評価を含むコーパスの構築方法について解説し,初期NMTの結果をコーパスに提示する。
論文 参考訳(メタデータ) (2020-01-27T16:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。