論文の概要: MyVoice: Arabic Speech Resource Collaboration Platform
- arxiv url: http://arxiv.org/abs/2308.02503v1
- Date: Sun, 23 Jul 2023 07:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 01:17:58.685537
- Title: MyVoice: Arabic Speech Resource Collaboration Platform
- Title(参考訳): MyVoice: アラビア語音声リソースコラボレーションプラットフォーム
- Authors: Yousseif Elshahawy, Yassine El Kheir, Shammur Absar Chowdhury, and
Ahmed Ali
- Abstract要約: MyVoiceはアラビア語の音声を集めるためのクラウドソーシングプラットフォームだ。
MyVoiceは、コントリビュータが都市レベルの微粒な方言を選択することを可能にする。
ユーザーはコントリビュータとアノテータの間で役割を切り替えることができる。
- 参考スコア(独自算出の注目度): 8.098700090427721
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce MyVoice, a crowdsourcing platform designed to collect Arabic
speech to enhance dialectal speech technologies. This platform offers an
opportunity to design large dialectal speech datasets; and makes them publicly
available. MyVoice allows contributors to select city/country-level
fine-grained dialect and record the displayed utterances. Users can switch
roles between contributors and annotators. The platform incorporates a quality
assurance system that filters out low-quality and spurious recordings before
sending them for validation. During the validation phase, contributors can
assess the quality of recordings, annotate them, and provide feedback which is
then reviewed by administrators. Furthermore, the platform offers flexibility
to admin roles to add new data or tasks beyond dialectal speech and word
collection, which are displayed to contributors. Thus, enabling collaborative
efforts in gathering diverse and large Arabic speech data.
- Abstract(参考訳): MyVoiceはアラビア語の音声を収集して方言の音声技術を強化するためのクラウドソーシングプラットフォームである。
このプラットフォームは、大きな方言の音声データセットを設計する機会を提供し、それらを一般公開する。
MyVoiceを使えば、コントリビュータは都市や州レベルのきめ細かい方言を選択して、表示された発話を記録することができる。
ユーザーはコントリビュータとアノテーションを切り替えることができる。
このプラットフォームには品質保証システムがあり、品質の低い録音をフィルタリングし、検証のために送信する。
検証フェーズの間、コントリビュータは録音の品質を評価し、注釈を付け、フィードバックを提供し、管理者によってレビューされる。
さらに、このプラットフォームは、管理者の役割に柔軟性を提供し、方言の音声や単語の収集以外の新しいデータやタスクを追加し、コントリビュータに表示する。
したがって、多種多様なアラビア語の音声データを収集する共同作業を可能にする。
関連論文リスト
- AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - QVoice: Arabic Speech Pronunciation Learning Application [11.913011065023758]
このアプリケーションは、非ネイティブのアラビア語話者が発音スキルを向上させるために設計されている。
QVoiceは、学習者が意味を理解するのを助けるために様々な学習方法を採用している。
QVoiceで紹介される学習の手がかりは、幅広い意味のある情報を含んでいる。
論文 参考訳(メタデータ) (2023-05-09T07:21:46Z) - Multilingual Multiaccented Multispeaker TTS with RADTTS [21.234787964238645]
RADTTSに基づく多言語・多言語・多話者音声合成モデルを提案する。
7つのアクセントからなるオープンソースデータセットにおいて、任意の話者に対して合成アクセントを制御する能力を示す。
論文 参考訳(メタデータ) (2023-01-24T22:39:04Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。