論文の概要: IndicVoices: Towards building an Inclusive Multilingual Speech Dataset
for Indian Languages
- arxiv url: http://arxiv.org/abs/2403.01926v1
- Date: Mon, 4 Mar 2024 10:42:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:06:56.713760
- Title: IndicVoices: Towards building an Inclusive Multilingual Speech Dataset
for Indian Languages
- Title(参考訳): indicvoices: インド語用多言語音声データセットの構築に向けて
- Authors: Tahir Javed, Janki Atul Nawale, Eldho Ittan George, Sakshi Joshi,
Kaushal Santosh Bhogale, Deovrat Mehendale, Ishvinder Virender Sethi, Aparna
Ananthanarayanan, Hafsah Faquih, Pratiti Palit, Sneha Ravishankar, Saranya
Sukumaran, Tripura Panchagnula, Sunjay Murali, Kunal Sharad Gandhi,
Ambujavalli R, Manickam K M, C Venkata Vaijayanthi, Krishnan Srinivasa
Raghavan Karunganni, Pratyush Kumar, Mitesh M Khapra
- Abstract要約: INDICVOICESは、145のインド地区と22の言語をカバーする16237人の話者による自然および自発的なスピーチのデータセットである。
1639時間は既に書き起こされており、言語ごとの平均的な時間は73時間である。
この作業の一部として開発されたデータ、ツール、ガイドライン、モデル、その他の材料はすべて公開されます。
- 参考スコア(独自算出の注目度): 17.862027695142825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present INDICVOICES, a dataset of natural and spontaneous speech
containing a total of 7348 hours of read (9%), extempore (74%) and
conversational (17%) audio from 16237 speakers covering 145 Indian districts
and 22 languages. Of these 7348 hours, 1639 hours have already been
transcribed, with a median of 73 hours per language. Through this paper, we
share our journey of capturing the cultural, linguistic and demographic
diversity of India to create a one-of-its-kind inclusive and representative
dataset. More specifically, we share an open-source blueprint for data
collection at scale comprising of standardised protocols, centralised tools, a
repository of engaging questions, prompts and conversation scenarios spanning
multiple domains and topics of interest, quality control mechanisms,
comprehensive transcription guidelines and transcription tools. We hope that
this open source blueprint will serve as a comprehensive starter kit for data
collection efforts in other multilingual regions of the world. Using
INDICVOICES, we build IndicASR, the first ASR model to support all the 22
languages listed in the 8th schedule of the Constitution of India. All the
data, tools, guidelines, models and other materials developed as a part of this
work will be made publicly available
- Abstract(参考訳): インドの145の地域と22の言語をカバーする16237人の話者から,7348時間(9%)の読み出し,現在(74%)および会話(17%)の音声を含む自然・自発音声のデータセットであるINDICVOICESを提示する。
この7348時間のうち、1639時間は既に転写されており、言語ごとの平均的な73時間である。
本稿では,インドにおける文化的,言語的,人口的多様性を捉え,一対一の包括的および代表的データセットを構築するための旅について紹介する。
具体的には、標準化されたプロトコル、集中型ツール、関心のある質問のレポジトリ、興味のある複数のドメインとトピックにまたがるプロンプト、会話シナリオ、品質管理メカニズム、包括的な転写ガイドライン、転写ツールからなる、大規模なデータ収集のためのオープンソースの青写真を共有します。
このオープンソース青写真が、世界中の他の多言語地域におけるデータ収集活動のための包括的なスターターキットになることを期待しています。
INDICVOICESを用いて、インド憲法第8号に記載された22言語すべてをサポートする最初のASRモデルであるIndicASRを構築した。
この作業の一部として開発されたすべてのデータ、ツール、ガイドライン、モデル、その他の材料が公開される予定だ。
関連論文リスト
- BhasaAnuvaad: A Speech Translation Dataset for 13 Indian Languages [27.273651323572786]
インド語における広く使われている自動音声翻訳システムの性能を評価する。
口語と非公式の言語を正確に翻訳できるシステムが存在しないことは顕著である。
BhasaAnuvaadを紹介します。ASTの公開データセットとしては最大で、22のインド言語と英語のうち13が対象です。
論文 参考訳(メタデータ) (2024-11-07T13:33:34Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - SPRING-INX: A Multilingual Indian Language Speech Corpus by SPRING Lab,
IIT Madras [1.4699314771635081]
インド国民のための音声ベースのアプリケーションを構築することは、限られたデータと対応すべき言語やアクセントの数のために難しい問題である。
我々は、アサメ、ベンガル、グジャラート、ヒンディー、カナダ、マラヤラム、マラティア、オディア、パンジャビ、タミルのASRシステム構築のための2000時間に及ぶ法的および手書きの音声データをオープンソース化している。
論文 参考訳(メタデータ) (2023-10-23T07:50:10Z) - IndicTrans2: Towards High-Quality and Accessible Machine Translation
Models for all 22 Scheduled Indian Languages [37.758476568195256]
インドは10億人以上の人々が話す4つの主要言語族の言語と共に豊かな言語風景を持っている。
これらの言語のうち22はインド憲法に記載されている(予定言語として参照)。
論文 参考訳(メタデータ) (2023-05-25T17:57:43Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for
Languages in India [33.31556860332746]
PMIndiaSumは、インドの言語に焦点を当てた多言語および大規模並列要約コーパスである。
私たちのコーパスは、4つの言語ファミリー、14の言語、196の言語ペアを持つ最大規模のトレーニングとテストの場を提供します。
論文 参考訳(メタデータ) (2023-05-15T17:41:15Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Annotated Speech Corpus for Low Resource Indian Languages: Awadhi,
Bhojpuri, Braj and Magahi [2.84214511742034]
Awadhi, Bhojpuri, Braj, Magahiの4つの低リソースインド・アーリア語のための音声コーパスを開発する。
現在、コーパスの総サイズは約18時間である。
新型コロナウイルスのパンデミックの真っ最中に行われたこれらの言語におけるデータ収集の方法論について論じる。
論文 参考訳(メタデータ) (2022-06-26T17:28:38Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。