Fugu-MT 論文翻訳(概要): Snow Mountain: Dataset of Audio Recordings of The Bible in Low Resource Languages

論文の概要: Snow Mountain: Dataset of Audio Recordings of The Bible in Low Resource Languages

arxiv url: http://arxiv.org/abs/2206.01205v1
Date: Wed, 1 Jun 2022 18:22:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-07 09:02:42.036619
Title: Snow Mountain: Dataset of Audio Recordings of The Bible in Low Resource Languages
Title（参考訳）: Snow Mountain:低資源言語における聖書のオーディオ録音のデータセット
Authors: Kavitha Raju, Anjaly V, Ryan Lish, Joel Mathew
Abstract要約: 我々は、低リソースの北インドの言語で聖書の音声録音をオープンライセンスでフォーマットしたデータセットをリリースする。我々は、複数の実験分割を設定し、このデータを用いて将来の研究のベースラインとなる2つの競合ASRモデルを訓練し、分析する。
参考スコア（独自算出の注目度）: 0.6193838300896449
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Automatic Speech Recognition (ASR) has increasing utility in the modern world. There are a many ASR models available for languages with large amounts of training data like English. However, low-resource languages are poorly represented. In response we create and release an open-licensed and formatted dataset of audio recordings of the Bible in low-resource northern Indian languages. We setup multiple experimental splits and train and analyze two competitive ASR models to serve as the baseline for future research using this data.
Abstract（参考訳）: 自動音声認識(asr)は、現代の世界では有用性が高まっている。英語のような大量のトレーニングデータを持つ言語には、多くのASRモデルが利用可能である。しかし、低リソース言語は表現に乏しい。これに応えて、低リソースの北インドの言語で聖書のオーディオ録音をオープンライセンスでフォーマットしたデータセットを作成し、リリースします。我々は、複数の実験分割を設定し、このデータを用いて将来の研究のベースラインとなる2つの競合ASRモデルを訓練し、分析する。

関連論文リスト

Remastering Divide and Remaster: A Cinematic Audio Source Separation Dataset with Multilingual Support [5.926447149127937]
我々はDivide and Remaster(DnR)データセットのバージョン3を開発する。本研究は,非対話幹の音声内容,大音量分布,習得過程,言語多様性に関する課題に対処する。 Banditモデルを用いたベンチマークの結果、多言語データのトレーニングはモデルにかなりの一般化性をもたらすことが示された。
論文参考訳（メタデータ） (2024-07-09T23:39:37Z)
Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文参考訳（メタデータ） (2024-06-03T15:38:40Z)
Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文参考訳（メタデータ） (2024-02-03T10:41:05Z)
Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文参考訳（メタデータ） (2023-08-18T05:19:03Z)
Model Adaptation for ASR in low-resource Indian Languages [28.02064068964355]
近年,wav2vec2のような自己教師付き学習(SSL)ベースの音響モデルとWhisperのような大規模多言語学習によって,音声認識(ASR)の性能が大幅に向上している。オーディオとテキストの両方の可用性が制限されている低リソース言語には、依然として大きな課題があります。ここで多くの適応と微調整のテクニックが適用され、十分なリソースを持つ類似言語を利用することで、データの低リソースの性質を克服できるのです。言語における音響データの豊富さによって、大きなテキストのみのコーパスの必要性が軽減される場合もあります。
論文参考訳（メタデータ） (2023-07-16T05:25:51Z)
ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文参考訳（メタデータ） (2022-09-06T22:48:29Z)
Effectiveness of text to speech pseudo labels for forced alignment and cross lingual pretrained models for low resource speech recognition [0.0]
本稿では,Maithili,Bhojpuri,Dogriのラベル付きデータ作成手法を提案する。すべてのデータとモデルはオープンドメインで利用可能である。
論文参考訳（メタデータ） (2022-03-31T06:12:52Z)
Automatic Speech Recognition Datasets in Cantonese Language: A Survey and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。 MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文参考訳（メタデータ） (2022-01-07T12:09:15Z)
Towards Building ASR Systems for the Next Billion Users [15.867823754118422]
インド亜大陸からの低資源言語のためのASRシステム構築に貢献する。まず、40言語を対象に、17,000時間の生音声データをキュレートする。この生の音声データを用いて、40のインドの言語に対して、いくつかのwav2vecスタイルモデルを事前訓練する。
論文参考訳（メタデータ） (2021-11-06T19:34:33Z)
LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文参考訳（メタデータ） (2020-08-09T08:16:33Z)
That Sounds Familiar: an Analysis of Phonetic Representations Transfer Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文参考訳（メタデータ） (2020-05-16T22:28:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。