論文の概要: EfficientWord-Net: An Open Source Hotword Detection Engine based on
One-shot Learning
- arxiv url: http://arxiv.org/abs/2111.00379v1
- Date: Sun, 31 Oct 2021 02:18:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 14:31:11.422282
- Title: EfficientWord-Net: An Open Source Hotword Detection Engine based on
One-shot Learning
- Title(参考訳): ワンショット学習に基づくオープンソースのホットワード検出エンジンEfficientWord-Net
- Authors: Chidhambararajan R, Aman Rangaur, Sibi Chakkaravarthy Sethuraman
- Abstract要約: 本稿では,ワンショット学習に基づくホットワード検出エンジンの設計と実装について述べる。
本稿では,94.51%の精度を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice assistants like Siri, Google Assistant, Alexa etc. are used widely
across the globe for home automation, these require the use of special phrases
also known as hotwords to wake it up and perform an action like "Hey Alexa!",
"Ok Google!" and "Hey Siri!" etc. These hotwords are detected with lightweight
real-time engines whose purpose is to detect the hotwords uttered by the user.
This paper presents the design and implementation of a hotword detection engine
based on one-shot learning which detects the hotword uttered by the user in
real-time with just one or few training samples of the hotword. This approach
is efficient when compared to existing implementations because the process of
adding a new hotword in the existing systems requires enormous amounts of
positive and negative training samples and the model needs to retrain for every
hotword. This makes the existing implementations inefficient in terms of
computation and cost. The architecture proposed in this paper has achieved an
accuracy of 94.51%.
- Abstract(参考訳): Siri、Google Assistant、Alexaなどの音声アシスタントは、ホームオートメーションのために世界中で広く使われているが、これらは"Hey Alexa!"や"Ok Google!"、"Hey Siri!"といったアクションを実行するために、ホットワードとして知られる特別なフレーズを使用する必要がある。
これらのホットワードは、ユーザが発するホットワードを検出することを目的とした軽量リアルタイムエンジンによって検出される。
本稿では,ユーザが発するホットワードを1つまたは数個のトレーニングサンプルでリアルタイムに検出するワンショット学習に基づくホットワード検出エンジンの設計と実装について述べる。
既存のシステムに新しいホットワードを追加するプロセスは、膨大な量の正負のトレーニングサンプルを必要とし、モデルがすべてのホットワードを再トレーニングする必要があるため、このアプローチは既存の実装と比較して効率的である。
これにより、既存の実装は計算とコストの面で非効率になる。
本論文で提案するアーキテクチャの精度は94.51%である。
関連論文リスト
- Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
音声認識のための自己教師付き連続学習手法を提案する。
文献からのメモリ拡張型ASRモデルを用いて、スライドから新しい単語を復号する。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - AraSpot: Arabic Spoken Command Spotting [0.0]
この研究は、アラビア語で40のキーワードで訓練されたアラビア語のキーワードスポッティングに対して、AraSpotを提示する。
合成データ生成のためのテキスト音声モデルを訓練することにより、モデルの性能をさらに向上する。
AraSpotはステート・オブ・ザ・アーツのSOTA 99.59%を達成し、以前のアプローチより優れていた。
論文 参考訳(メタデータ) (2023-03-29T12:22:17Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - On the Efficiency of Integrating Self-supervised Learning and
Meta-learning for User-defined Few-shot Keyword Spotting [51.41426141283203]
ユーザ定義キーワードスポッティングは、ユーザが定義する新しい音声用語を検出するタスクである。
これまでの研究は、自己教師付き学習モデルを取り入れたり、メタ学習アルゴリズムを適用しようとするものだった。
この結果から,HuBERTとMatching Networkを組み合わせることで,最適な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-04-01T10:59:39Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。
現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。
グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文 参考訳(メタデータ) (2021-10-15T14:36:45Z) - Spell my name: keyword boosted speech recognition [25.931897154065663]
名前や専門用語のような一般的な言葉は、会話を文脈で理解するのに重要である。
本稿では、これらの非一般的なキーワードをよりよく認識できる、単純だが強力なASR復号法を提案する。
本手法は,音響モデル予測に基づくビームサーチにおいて,与えられたキーワードの確率を高める。
本稿では,本手法の有効性を実世界の会話の内部データとLibriSpeeechテストセットで実証する。
論文 参考訳(メタデータ) (2021-10-06T14:16:57Z) - EfficientNet-Absolute Zero for Continuous Speech Keyword Spotting [7.313613282363873]
football keyword dataset (fkd) はペルシア語の新しいキーワードスポッティングデータセットである。
このデータセットは18のクラスに約31000のサンプルを含んでいる。
efficientnet-a0とresnetモデルは、このデータセット上の他のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-31T16:21:27Z) - Few-Shot Keyword Spotting With Prototypical Networks [3.6930948691311016]
キーワードスポッティングは、AmazonのAlexaやGoogle Homeなど、多くの音声インターフェースで広く使用されている。
まず、この問題を数発のキーワードスポッティングとして定式化し、メートル法学習を用いてアプローチする。
そこで我々は,ネットワーク上の時間的および拡張的畳み込みを用いたプロトタイプ的な数ショットキーワードスポッティング問題に対する解を提案する。
論文 参考訳(メタデータ) (2020-07-25T20:17:56Z) - How Does That Sound? Multi-Language SpokenName2Vec Algorithm Using
Speech Generation and Deep Learning [4.769747792846004]
SpokenName2Vecは、同様の名前提案問題に対処する、新しくて汎用的なアプローチである。
提案手法は25万のフォアネームからなる大規模データセット上で実証された。
提案手法の性能は,本研究で評価した他の10種類のアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-24T20:39:00Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。