論文の概要: Howl: A Deployed, Open-Source Wake Word Detection System
- arxiv url: http://arxiv.org/abs/2008.09606v1
- Date: Fri, 21 Aug 2020 17:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 21:02:21.602540
- Title: Howl: A Deployed, Open-Source Wake Word Detection System
- Title(参考訳): Howl: オープンソースのWakeワード検出システム
- Authors: Raphael Tang, Jaejun Lee, Afsaneh Razi, Julia Cambre, Ian Bicking,
Jofish Kaye, Jimmy Lin
- Abstract要約: Howlはオープンソースのウェイクワード検出ツールキットで、オープンスピーチデータセットをネイティブにサポートする。
我々は,Firefox Web ブラウザで音声対話を可能にするプラグインである Firefox Voice を運用している。
- 参考スコア(独自算出の注目度): 55.785258621737825
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We describe Howl, an open-source wake word detection toolkit with native
support for open speech datasets, like Mozilla Common Voice and Google Speech
Commands. We report benchmark results on Speech Commands and our own freely
available wake word detection dataset, built from MCV. We operationalize our
system for Firefox Voice, a plugin enabling speech interactivity for the
Firefox web browser. Howl represents, to the best of our knowledge, the first
fully productionized yet open-source wake word detection toolkit with a web
browser deployment target. Our codebase is at
https://github.com/castorini/howl.
- Abstract(参考訳): Howlはオープンソースのウェイクワード検出ツールキットで、Mozilla Common VoiceやGoogle Speech Commandsなどのオープンスピーチデータセットをネイティブにサポートする。
音声コマンドのベンチマーク結果と,mcvで構築したウェイクワード検出データセットについて報告する。
我々は,Firefox Web ブラウザで音声対話を可能にするプラグインである Firefox Voice を運用している。
Howlは、私たちの知る限りでは、Webブラウザのデプロイメントターゲットを備えた、初めて完全に生産されたオープンソースのウェイクワード検出ツールキットです。
私たちのコードベースはhttps://github.com/castorini/howlにあります。
関連論文リスト
- PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - Towards hate speech detection in low-resource languages: Comparing ASR
to acoustic word embeddings on Wolof and Swahili [16.424308444697015]
ラジオ放送におけるキーワードスポッティングによるヘイトスピーチの検出について検討する。
1つのアプローチは、ターゲットとする低リソース言語のための自動音声認識システムを構築することである。
音声セグメントを類似したベクトルを持つ空間にマッピングする音響単語埋め込みモデルと比較する。
論文 参考訳(メタデータ) (2023-06-01T07:25:10Z) - Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM [19.36630667212398]
本稿では,事前学習された大規模言語モデル(LLM)を適応させて,音声質問応答(QA)と音声継続を行う新しいアプローチであるSpectronを提案する。
我々のアプローチの鍵は、音声認識、テキスト継続、音声合成を共同で監督する訓練目標である。
提案手法は話者保存とセマンティック・コヒーレンスにおいて既存の言語モデルを上回る。
論文 参考訳(メタデータ) (2023-05-24T15:39:43Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - ESPnet-SLU: Advancing Spoken Language Understanding through ESPnet [95.39817519115394]
ESPnet-SLUは、エンドツーエンドの音声処理ツールキットであるESPnetのプロジェクトである。
単一のフレームワークによる音声言語理解の迅速な開発を目的として設計されている。
論文 参考訳(メタデータ) (2021-11-29T17:05:49Z) - KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition [1.7955614278088239]
KoSpeechは、ディープラーニングライブラリPyTorchをベースにした、エンドツーエンドの韓国自動音声認識(ASR)ツールキットである。
KsponSpeechコーパスの事前処理手法とベンチマークのベースラインモデルを提案する。
KsponSpeech corpusでは音響モデルのみで10.31%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-09-07T13:25:36Z) - ESPnet-ST: All-in-One Speech Translation Toolkit [57.76342114226599]
ESPnet-STは、エンドツーエンドの音声処理ツールキットであるESPnet内の新しいプロジェクトである。
音声認識、機械翻訳、音声翻訳のための音声合成機能を実装する。
データ前処理、特徴抽出、トレーニング、デコードパイプラインを含むオールインワンのレシピを提供します。
論文 参考訳(メタデータ) (2020-04-21T18:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。