論文の概要: CAFE A Novel Code switching Dataset for Algerian Dialect French and English
- arxiv url: http://arxiv.org/abs/2411.13424v1
- Date: Wed, 20 Nov 2024 16:09:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:10:01.847591
- Title: CAFE A Novel Code switching Dataset for Algerian Dialect French and English
- Title(参考訳): CAFE フランス語と英語のアルジェリア方言用新しいコードスイッチングデータセット
- Authors: Houssam Eddine-Othman Lachemat, Akli Abbas, Nourredine Oukas, Yassine El Kheir, Samia Haboussi, Absar Showdhury Shammur,
- Abstract要約: アルジェリア方言、フランス語、英語の最初のコードスイッチングデータセット。
CBEは、異なる社会言語学的文脈の中で、アルジェリアの様々な部分から方言のバリエーションを捉えている。
CBEデータには、約37時間の音声が含まれており、サブセットであるCAFE-smallは、2時間36分で人手による注釈が付けられている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The paper introduces and publicly releases (Data download link available after acceptance) CAFE -- the first Code-switching dataset between Algerian dialect, French, and english languages. The CAFE speech data is unique for (a) its spontaneous speaking style in vivo human-human conversation capturing phenomena like code-switching and overlapping speech, (b) addresses distinct linguistic challenges in North African Arabic dialect; (c) the CAFE captures dialectal variations from various parts of Algeria within different sociolinguistic contexts. CAFE data contains approximately 37 hours of speech, with a subset, CAFE-small, of 2 hours and 36 minutes released with manual human annotation including speech segmentation, transcription, explicit annotation of code-switching points, overlapping speech, and other events such as noises, and laughter among others. The rest approximately 34.58 hours contain pseudo label transcriptions. In addition to the data release, the paper also highlighted the challenges of using state-of-the-art Automatic Speech Recognition (ASR) models such as Whisper large-v2,3 and PromptingWhisper to handle such content. Following, we benchmark CAFE data with the aforementioned Whisper models and show how well-designed data processing pipelines and advanced decoding techniques can improve the ASR performance in terms of Mixed Error Rate (MER) of 0.310, Character Error Rate (CER) of 0.329 and Word Error Rate (WER) of 0.538.
- Abstract(参考訳): この論文は、アルジェリア方言、フランス語、および英語の最初のコードスイッチングデータセットであるCAFE(受理後に利用可能なデータダウンロードリンク)を紹介し、公開している。
CAFE音声データはユニークである
a) コードスイッチや重複音声などの現象を捉えた、自然発声スタイルのin vivoでの人間と人間の会話。
b)北アフリカアラビア方言の言語的課題に対処すること。
(c)CAFEは、異なる社会言語学的文脈におけるアルジェリアの様々な部分の方言変化を捉えている。
CAFEデータには約37時間の音声が含まれており、音声のセグメンテーション、書き起こし、コードスイッチングポイントの明示的なアノテーション、重複する音声、ノイズ、笑いなどの他の出来事を含む手動の人間のアノテーションが付属している。
残りの34.58時間には、擬似的なラベルの転写が含まれている。
データリリースに加えて、Whisper large-v2,3やPromptingWhisperといった最先端の音声認識(ASR)モデルを用いてコンテンツを扱う際の課題も強調した。
次に、上記のWhisperモデルを用いてCAFEデータをベンチマークし、0.310の混合誤り率(MER)、0.329の文字誤り率(CER)、0.538のワード誤り率(WER)の観点から、十分に設計されたデータ処理パイプラインと高度な復号化技術により、ASRの性能が向上することを示す。
関連論文リスト
- VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Semantically Corrected Amharic Automatic Speech Recognition [27.569469583183423]
私たちはアフリカ東部で5000万人以上の人々が話しているアムハラ語のためのASRツールセットを構築しています。
既存のAmharic ASRテストデータセットの書き起こしを修正し、コミュニティが進捗を正確に評価できるようにする。
本稿では,トランスフォーマーエンコーダデコーダアーキテクチャを用いて,生のASR出力を文法的に完全かつ意味論的に意味のあるアムハラ語文に整理する後処理手法を提案する。
論文 参考訳(メタデータ) (2024-04-20T12:08:00Z) - Conversational Speech Recognition by Learning Audio-textual Cross-modal Contextual Representation [27.926862030684926]
クロスモーダルな会話表現を備えたコンフォーマーエンコーダデコーダモデルを拡張した会話型ASRシステムを提案する。
提案手法は、特殊エンコーダとモーダルレベルのマスク入力により、事前訓練された音声とテキストモデルを組み合わせる。
クロスモーダル表現と会話表現の両方をデコーダに導入することで、我々のモデルは情報損失のない長い文よりもコンテキストを保ちます。
論文 参考訳(メタデータ) (2023-10-22T11:57:33Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Leveraging Data Collection and Unsupervised Learning for Code-switched
Tunisian Arabic Automatic Speech Recognition [4.67385883375784]
本稿では,チュニジア方言に着目した自動音声認識(ASR)課題に焦点を当てた。
まず、テキストデータと音声データを収集し、場合によっては注釈を付ける。
第2に、チュニジアのさまざまなテストセットに最先端をプッシュするために、セルフスーパービジョン、セミスーパービジョン、および数ショットのコードスイッチングアプローチについて検討する。
第3に,従来の綴りの欠如を考慮し,テスト基準のスペルから発生する騒音を避けるために,転写文の人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-20T13:56:27Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。