論文の概要: Preuve de concept d'un bot vocal dialoguant en wolof
- arxiv url: http://arxiv.org/abs/2404.02009v1
- Date: Tue, 2 Apr 2024 14:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 15:59:17.616175
- Title: Preuve de concept d'un bot vocal dialoguant en wolof
- Title(参考訳): オオカミにおけるボット音声対話の先駆的概念
- Authors: Elodie Gauthier, Papa-Séga Wade, Thierry Moudenc, Patrice Collen, Emilie De Neef, Oumar Ba, Ndeye Khoyane Cama, Cheikh Ahmadou Bamba Kebe, Ndeye Aissatou Gningue, Thomas Mendo'o Aristide,
- Abstract要約: 本稿では,Wolof言語で構築された最初の自動音声アシスタントのコンセプト実証について述べる。
ボイスボットの目的は、オレンジセネガルのサルガル忠誠プログラムに関する情報を提供することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the proof-of-concept of the first automatic voice assistant ever built in Wolof language, the main vehicular language spoken in Senegal. This voicebot is the result of a collaborative research project between Orange Innovation in France, Orange Senegal (aka Sonatel) and ADNCorp, a small IT company based in Dakar, Senegal. The purpose of the voicebot is to provide information to Orange customers about the Sargal loyalty program of Orange Senegal by using the most natural mean to communicate: speech. The voicebot receives in input the customer's oral request that is then processed by a SLU system to reply to the customer's request using audio recordings. The first results of this proof-of-concept are encouraging as we achieved 22\% of WER for the ASR task and 78\% of F1-score on the NLU task.
- Abstract(参考訳): 本稿では,セネガルで話される主要な車両言語であるWolof言語で構築された最初の自動音声アシスタントのコンセプト実証について述べる。
このボイスボットは、フランスのOrange Innovation、Orange Senegal(別名Sonatel)と、セネガルのDakarに本社を置く小さなIT企業ADNCorpの共同研究プロジェクトの結果である。
ボイスボットの目的は、オレンジセネガルのサルガル忠誠プログラムについて、最も自然な手段である音声を用いて、オレンジの顧客に情報を提供することである。
ボイスボットは、SLUシステムによって処理された顧客の口頭要求を入力し、音声記録を用いて顧客の要求に応答する。
ASRタスクではWERの22倍、NLUタスクではF1スコアの78倍を達成した。
関連論文リスト
- Distilling an End-to-End Voice Assistant Without Instruction Training Data [53.524071162124464]
Distilled Voice Assistant (DiVA)は、質問応答、分類、翻訳を一般化する。
Qwen 2 Audioのような最先端のモデルと比較すると,DiVAはユーザの好みによく適合し,72%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-10-03T17:04:48Z) - FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - OpenVoice: Versatile Instant Voice Cloning [22.217256641284106]
本稿では,多目的音声クローニング手法であるOpenVoiceを紹介する。
音声を再現し、複数の言語で音声を生成するために、参照話者からの短い音声クリップしか必要としない。
OpenVoiceは世界中の200万人以上のユーザーがMyShell.aiの音声エンジンとして使っている。
論文 参考訳(メタデータ) (2023-12-03T18:41:54Z) - Kaggle Competition: Cantonese Audio-Visual Speech Recognition for In-car
Commands [48.155806720847394]
車載スマートアシスタントは、車に関するコマンドだけでなく、一般的な処理も行う必要がある。
ほとんどのデータセットは、英語や中国語などの主要言語で使われている。
我々は車載コマンドに対するカントネーゼ音声認識を提案する。
論文 参考訳(メタデータ) (2022-07-06T13:31:56Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - CORAA: a large corpus of spontaneous and prepared speech manually
validated for speech recognition in Brazilian Portuguese [42.64153341338408]
ブラジルポルトガル語 (BP) における ASR のデータセットである CORAA (Corpus of Annotated Audios) v1。
We present two public ASR model based on Wav2Vec 2.0 XLSR-53 and fine-tuned over CORAA。
CORAAコーパスは、自然発声による現象を伴うBPのASRモデルの改善と、ポルトガルでのASR研究を開始するための若い研究者のモチベーションの両方のために組み立てられた。
論文 参考訳(メタデータ) (2021-10-14T13:50:52Z) - Fast Development of ASR in African Languages using Self Supervised
Speech Representation Learning [13.7466513616362]
本稿では,2020年6月のAfrican Master of Machine Intelligence (AMMI)における非公式なコラボレーションの結果について述べる。
モバイルアプリケーションを用いた音声データ収集に関する一連の講義と研究室の後、少数の学生と講師は、Wolof、Ga、Somaliの3つの言語のための自動音声認識(ASR)プロジェクトに取り組んだ。
本稿では,データ収集方法と,少量 (1h) の書き起こし音声を訓練データとして開発したASRシステムについて述べる。
論文 参考訳(メタデータ) (2021-03-16T11:37:03Z) - Towards End-to-End Training of Automatic Speech Recognition for Nigerian
Pidgin [0.0]
ナイジェリアのピジンは西アフリカで最も人気のある言語の一つである。
我々はナイジェリアのピジンについて最初のパラレル(音声からテキスト)データを提示する。
また,この言語を用いた最初のエンドツーエンド音声認識システムを訓練した。
論文 参考訳(メタデータ) (2020-10-21T16:32:58Z) - Speech To Semantics: Improve ASR and NLU Jointly via All-Neural
Interfaces [17.030832205343195]
本稿では,音声アシスタントを指向した音声から自然言語意図を抽出する言語理解(SLU)の問題について考察する。
ハードウェア制約のあるシナリオにデプロイする機会を開放するために必要な仕様のために、エンドツーエンドのSLUモデルを構築することができる。
共同学習モデルでは,NLUからの意味情報を取り入れたASRの改良や,隠蔽層に符号化されたASRの混乱に露呈することでNLUの改善が示されている。
論文 参考訳(メタデータ) (2020-08-14T02:43:57Z) - Black-box Adaptation of ASR for Accented Speech [52.63060669715216]
我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。
そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。
本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
論文 参考訳(メタデータ) (2020-06-24T07:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。