論文の概要: ZAEBUC-Spoken: A Multilingual Multidialectal Arabic-English Speech Corpus
- arxiv url: http://arxiv.org/abs/2403.18182v1
- Date: Wed, 27 Mar 2024 01:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 18:45:45.653372
- Title: ZAEBUC-Spoken: A Multilingual Multidialectal Arabic-English Speech Corpus
- Title(参考訳): ZAEBUC-Spoken:多言語多言語アラビア語-英語音声コーパス
- Authors: Injy Hamed, Fadhl Eryani, David Palfreyman, Nizar Habash,
- Abstract要約: ZAEBUC-Spokenは多言語多言語対応アラビア語-英語音声コーパスである。
コーパスは自動音声認識(ASR)のための課題セットを提供する
我々は、既存の転写ガイドラインからインスピレーションを得て、会話音声、コードスイッチング、両方の言語の正書法といった問題を扱う一連のガイドラインを提示する。
- 参考スコア(独自算出の注目度): 8.96693684560691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ZAEBUC-Spoken, a multilingual multidialectal Arabic-English speech corpus. The corpus comprises twelve hours of Zoom meetings involving multiple speakers role-playing a work situation where Students brainstorm ideas for a certain topic and then discuss it with an Interlocutor. The meetings cover different topics and are divided into phases with different language setups. The corpus presents a challenging set for automatic speech recognition (ASR), including two languages (Arabic and English) with Arabic spoken in multiple variants (Modern Standard Arabic, Gulf Arabic, and Egyptian Arabic) and English used with various accents. Adding to the complexity of the corpus, there is also code-switching between these languages and dialects. As part of our work, we take inspiration from established sets of transcription guidelines to present a set of guidelines handling issues of conversational speech, code-switching and orthography of both languages. We further enrich the corpus with two layers of annotations; (1) dialectness level annotation for the portion of the corpus where mixing occurs between different variants of Arabic, and (2) automatic morphological annotations, including tokenization, lemmatization, and part-of-speech tagging.
- Abstract(参考訳): ZAEBUC-Spokenは多言語多言語多言語アラビア語-英語音声コーパスである。
このコーパスは12時間のZoomミーティングで構成されており、複数のスピーカーが特定のトピックについてアイデアを脳卒中させ、インターロケーターと議論する作業状況にロールプレイする。
ミーティングはさまざまなトピックをカバーし、異なる言語設定のフェーズに分割されます。
コーパスは、複数の変種(現代標準アラビア語、湾岸アラビア語、エジプトアラビア語)で話されるアラビア語と、様々なアクセントで使われる英語の2つの言語(アラビア語と英語)を含む、自動音声認識(ASR)のための挑戦的なセットを提示している。
コーパスの複雑さに加えて、これらの言語と方言の間にもコードスイッチがある。
本研究の一環として,既存の書き起こしガイドラインからインスピレーションを得て,会話音声,コードスイッチング,両言語の正書法に関する一連のガイドラインを提示する。
1)アラビア語の異なる変種間で混在するコーパスの方言レベルアノテーション,(2)トークン化,補題化,および音声タグ付けを含む自動形態的アノテーション,である。
関連論文リスト
- Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - Fine-Tuned Self-Supervised Speech Representations for Language
Diarization in Multilingual Code-Switched Speech [4.39549503760707]
大規模自己教師型アーキテクチャ(WavLM)から抽出した微調整音声表現を用いた連続多言語ダイアリザを開発した。
南アフリカ語5言語(isiZulu, isiXa, Seswana, Sesotho, English)からなるコード交換コーパスを実験した。
論文 参考訳(メタデータ) (2023-12-15T09:40:41Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - ArzEn-ST: A Three-way Speech Translation Corpus for Code-Switched
Egyptian Arabic - English [32.885722714728765]
ArzEn-ST (英語: ArzEn-ST) は、エジプトの音声翻訳会社。
このコーパスは、バイリンガル話者との非公式なインタビューを通じて収集されたArzEn音声コーパスの拡張である。
論文 参考訳(メタデータ) (2022-11-22T04:37:14Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Curras + Baladi: Towards a Levantine Corpus [0.0]
約9.6Kの注釈付きトークンからなるレバノン・コーパス・バラディを提示する。
提案するコーパスは,キュラスを濃縮し,より一般的なレバンタインコーパスに変換するために構築された。
論文 参考訳(メタデータ) (2022-05-19T16:53:04Z) - Towards One Model to Rule All: Multilingual Strategy for Dialectal
Code-Switching Arabic ASR [11.363966269198064]
自己アテンションに基づくコンストラクタアーキテクチャを用いて,多言語対応の大規模ASRを設計する。
我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。
以上の結果から,最先端のモノリンガル方言アラビア語およびコードスイッチングアラビアASRよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-31T08:20:38Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。