論文の概要: MyVoice: Arabic Speech Resource Collaboration Platform
- arxiv url: http://arxiv.org/abs/2308.02503v1
- Date: Sun, 23 Jul 2023 07:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 01:17:58.685537
- Title: MyVoice: Arabic Speech Resource Collaboration Platform
- Title(参考訳): MyVoice: アラビア語音声リソースコラボレーションプラットフォーム
- Authors: Yousseif Elshahawy, Yassine El Kheir, Shammur Absar Chowdhury, and
Ahmed Ali
- Abstract要約: MyVoiceはアラビア語の音声を集めるためのクラウドソーシングプラットフォームだ。
MyVoiceは、コントリビュータが都市レベルの微粒な方言を選択することを可能にする。
ユーザーはコントリビュータとアノテータの間で役割を切り替えることができる。
- 参考スコア(独自算出の注目度): 8.098700090427721
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce MyVoice, a crowdsourcing platform designed to collect Arabic
speech to enhance dialectal speech technologies. This platform offers an
opportunity to design large dialectal speech datasets; and makes them publicly
available. MyVoice allows contributors to select city/country-level
fine-grained dialect and record the displayed utterances. Users can switch
roles between contributors and annotators. The platform incorporates a quality
assurance system that filters out low-quality and spurious recordings before
sending them for validation. During the validation phase, contributors can
assess the quality of recordings, annotate them, and provide feedback which is
then reviewed by administrators. Furthermore, the platform offers flexibility
to admin roles to add new data or tasks beyond dialectal speech and word
collection, which are displayed to contributors. Thus, enabling collaborative
efforts in gathering diverse and large Arabic speech data.
- Abstract(参考訳): MyVoiceはアラビア語の音声を収集して方言の音声技術を強化するためのクラウドソーシングプラットフォームである。
このプラットフォームは、大きな方言の音声データセットを設計する機会を提供し、それらを一般公開する。
MyVoiceを使えば、コントリビュータは都市や州レベルのきめ細かい方言を選択して、表示された発話を記録することができる。
ユーザーはコントリビュータとアノテーションを切り替えることができる。
このプラットフォームには品質保証システムがあり、品質の低い録音をフィルタリングし、検証のために送信する。
検証フェーズの間、コントリビュータは録音の品質を評価し、注釈を付け、フィードバックを提供し、管理者によってレビューされる。
さらに、このプラットフォームは、管理者の役割に柔軟性を提供し、方言の音声や単語の収集以外の新しいデータやタスクを追加し、コントリビュータに表示する。
したがって、多種多様なアラビア語の音声データを収集する共同作業を可能にする。
関連論文リスト
- The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings [0.0]
我々は,低リソース言語による大規模かつオープンな音声・テキスト対応データセットを構築するためのアプローチを提案する。
我々は3つのスラヴ語、すなわちクロアチア語、ポーランド語、セルビア語に焦点を当てている。
このパイロット実行の結果は、5000時間以上のスピーチと付随するテキストの書き起こしにまたがる、高品質な3つのデータセットである。
論文 参考訳(メタデータ) (2024-09-23T10:12:18Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - QVoice: Arabic Speech Pronunciation Learning Application [11.913011065023758]
このアプリケーションは、非ネイティブのアラビア語話者が発音スキルを向上させるために設計されている。
QVoiceは、学習者が意味を理解するのを助けるために様々な学習方法を採用している。
QVoiceで紹介される学習の手がかりは、幅広い意味のある情報を含んでいる。
論文 参考訳(メタデータ) (2023-05-09T07:21:46Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。