論文の概要: SPRING-INX: A Multilingual Indian Language Speech Corpus by SPRING Lab,
IIT Madras
- arxiv url: http://arxiv.org/abs/2310.14654v2
- Date: Tue, 24 Oct 2023 06:03:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 11:11:12.460269
- Title: SPRING-INX: A Multilingual Indian Language Speech Corpus by SPRING Lab,
IIT Madras
- Title(参考訳): SPRING-INX: SPRING Lab, IIT Madrasによる多言語言語音声コーパス
- Authors: Nithya R, Malavika S, Jordan F, Arjun Gangwar, Metilda N J, S Umesh,
Rithik Sarab, Akhilesh Kumar Dubey, Govind Divakaran, Samudra Vijaya K,
Suryakanth V Gangashetty
- Abstract要約: インド国民のための音声ベースのアプリケーションを構築することは、限られたデータと対応すべき言語やアクセントの数のために難しい問題である。
我々は、アサメ、ベンガル、グジャラート、ヒンディー、カナダ、マラヤラム、マラティア、オディア、パンジャビ、タミルのASRシステム構築のための2000時間に及ぶ法的および手書きの音声データをオープンソース化している。
- 参考スコア(独自算出の注目度): 1.4699314771635081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: India is home to a multitude of languages of which 22 languages are
recognised by the Indian Constitution as official. Building speech based
applications for the Indian population is a difficult problem owing to limited
data and the number of languages and accents to accommodate. To encourage the
language technology community to build speech based applications in Indian
languages, we are open sourcing SPRING-INX data which has about 2000 hours of
legally sourced and manually transcribed speech data for ASR system building in
Assamese, Bengali, Gujarati, Hindi, Kannada, Malayalam, Marathi, Odia, Punjabi
and Tamil. This endeavor is by SPRING Lab , Indian Institute of Technology
Madras and is a part of National Language Translation Mission (NLTM), funded by
the Indian Ministry of Electronics and Information Technology (MeitY),
Government of India. We describe the data collection and data cleaning process
along with the data statistics in this paper.
- Abstract(参考訳): インドには多くの言語があり、22の言語がインド憲法によって公式に承認されている。
インド国民のための音声ベースのアプリケーションを構築することは、限られたデータと対応すべき言語やアクセントの数のために難しい問題である。
言語技術コミュニティがインドの言語で音声ベースのアプリケーションを構築することを奨励するため、私たちはSPRING-INXデータをオープンソース化しています。これは、アサメ、ベンガル、グジャラーティ、ヒンディー、カナダ、マラヤラム、マラチ、オディア、パンジャービ、タミルのASRシステム構築のための2000時間に及ぶ法的および手作業による音声データです。
この取り組みはインド工科大学マドラス校のSPRING Labが行い、インド政府電子情報技術省(MeitY)が出資したNLTM(National Language Translation Mission)の一部となっている。
本稿では,データ収集とデータクリーニングのプロセスとデータ統計について述べる。
関連論文リスト
- Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。
主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。
我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-08T05:54:54Z) - IndicVoices: Towards building an Inclusive Multilingual Speech Dataset
for Indian Languages [17.862027695142825]
INDICVOICESは、145のインド地区と22の言語をカバーする16237人の話者による自然および自発的なスピーチのデータセットである。
1639時間は既に書き起こされており、言語ごとの平均的な時間は73時間である。
この作業の一部として開発されたデータ、ツール、ガイドライン、モデル、その他の材料はすべて公開されます。
論文 参考訳(メタデータ) (2024-03-04T10:42:08Z) - IndicIRSuite: Multilingual Dataset and Neural Information Models for
Indian Languages [42.50384290676914]
本稿では,11言語を対象にニューラル・インフォメーション・検索リソースを提案する。
これらのリソースには、(a) INDIC-MARCO、MSMARCOデータセットの多言語版であるMSMARCO、(b) Indic-ColBERT、11の異なるモノリンガルニューラルネットワーク検索モデルのコレクションが含まれる。
IndicIRSuiteは、多数のインド言語に対して大規模なニューラル情報検索リソースを構築する最初の試みである。
論文 参考訳(メタデータ) (2023-12-15T03:19:53Z) - PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for
Languages in India [33.31556860332746]
PMIndiaSumは、インドの言語に焦点を当てた多言語および大規模並列要約コーパスである。
私たちのコーパスは、4つの言語ファミリー、14の言語、196の言語ペアを持つ最大規模のトレーニングとテストの場を提供します。
論文 参考訳(メタデータ) (2023-05-15T17:41:15Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Factorization of Fact-Checks for Low Resource Indian Languages [44.94080515860928]
FactDRILは、インドの地域言語のための最初の大規模多言語ファクトチェックデータセットです。
本データセットは英語9,058サンプル,ヒンディー語5,155サンプルからなり,残りの8,222サンプルは様々な地域言語に分布する。
このデータセットは貴重なリソースであり、低リソース言語での偽ニュースの拡散と戦う出発点となると期待しています。
論文 参考訳(メタデータ) (2021-02-23T16:47:41Z) - Taxonomic survey of Hindi Language NLP systems [0.0]
自然言語処理(NLP)は、機械による自然言語の自動処理のタスクである。
本調査では,ヒンディー語NLPで利用可能なリソースとアプリケーションについて報告する。
論文 参考訳(メタデータ) (2021-01-30T11:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。