論文の概要: Towards noise robust trigger-word detection with contrastive learning
pre-task for fast on-boarding of new trigger-words
- arxiv url: http://arxiv.org/abs/2111.03971v1
- Date: Sat, 6 Nov 2021 22:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 17:52:43.561294
- Title: Towards noise robust trigger-word detection with contrastive learning
pre-task for fast on-boarding of new trigger-words
- Title(参考訳): 新しいトリガーワードの高速搭載のためのコントラスト学習前タスクを用いた雑音頑健なトリガーワード検出に向けて
- Authors: Sivakumar Balasubramanian, Aditya Jajodia, Gowtham Srinivasan
- Abstract要約: ユーザの音声アシスタントとのコミュニケーションのエントリポイントとして,トリガーワード検出が重要な役割を果たす。
本研究では,検出モデルが異なる単語や雑音条件に一般化するのに役立つ事前学習タスクとして,コントラスト学習を提案する。
対照的な事前学習手法は、データ利用率の低い新しいトリガー語を事前学習する従来の分類に匹敵する結果が得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trigger-word detection plays an important role as the entry point of user's
communication with voice assistants. But supporting a particular word as a
trigger-word involves huge amount of data collection, augmentation and
labelling for that word. This makes supporting new trigger-words a tedious and
time consuming process. To combat this, we explore the use of contrastive
learning as a pre-training task that helps the detection model to generalize to
different words and noise conditions. We explore supervised contrastive
techniques and also propose a self-supervised technique using chunked words
from long sentence audios. We show that the contrastive pre-training techniques
have comparable results to a traditional classification pre-training on new
trigger words with less data availability.
- Abstract(参考訳): ユーザの音声アシスタントとのコミュニケーションのエントリポイントとして,トリガーワード検出が重要な役割を果たす。
しかし、特定の単語をトリガーワードとしてサポートするためには、膨大な量のデータ収集、拡張、ラベリングが必要となる。
これにより、新しいトリガーワードのサポートは退屈で時間のかかるプロセスになる。
そこで本研究では, コントラスト学習を事前学習タスクとして用いることにより, 検出モデルが単語や雑音に一般化するのを助ける。
教師付きコントラスト手法について検討し,長文音声のチャンクワードを用いた自己教師あり手法を提案する。
対照的な事前学習技術は、データ可用性の低い新しいトリガーワードで事前学習する従来の分類と同等の結果を示す。
関連論文リスト
- SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking [89.43370214059955]
Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。
我々は,連合の初期段階において,意味論,位置,出現の先行を共同で検討する統一的な枠組みを提案する。
提案手法は,異なるキューを融合するための複雑な後処理を排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:36:58Z) - Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文 参考訳(メタデータ) (2024-04-20T06:32:00Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - Towards Open Vocabulary Learning: A Survey [146.90188069113213]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。
近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。
本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-06-28T02:33:06Z) - SmartPhone: Exploring Keyword Mnemonic with Auto-generated Verbal and
Visual Cues [2.8047215329139976]
本稿では,キーワード・メニーモニックのための言語・視覚的手がかりの自動生成のためのエンドツーエンドパイプラインを提案する。
言語と視覚を自動生成するエンド・ツー・エンドのパイプラインである我々のアプローチは、覚えやすいキューを自動的に生成することができる。
論文 参考訳(メタデータ) (2023-05-11T20:58:10Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Unsupervised Multimodal Word Discovery based on Double Articulation
Analysis with Co-occurrence cues [7.332652485849632]
ヒトの幼児は、言語に関する最小限の事前知識で口頭語彙を取得する。
本研究では,音声単位を発見するための教師なし学習手法を提案する。
提案手法は教師なし学習を用いて音声信号から単語と音素を取得することができる。
論文 参考訳(メタデータ) (2022-01-18T07:31:59Z) - Spell my name: keyword boosted speech recognition [25.931897154065663]
名前や専門用語のような一般的な言葉は、会話を文脈で理解するのに重要である。
本稿では、これらの非一般的なキーワードをよりよく認識できる、単純だが強力なASR復号法を提案する。
本手法は,音響モデル予測に基づくビームサーチにおいて,与えられたキーワードの確率を高める。
本稿では,本手法の有効性を実世界の会話の内部データとLibriSpeeechテストセットで実証する。
論文 参考訳(メタデータ) (2021-10-06T14:16:57Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Few-Shot Keyword Spotting With Prototypical Networks [3.6930948691311016]
キーワードスポッティングは、AmazonのAlexaやGoogle Homeなど、多くの音声インターフェースで広く使用されている。
まず、この問題を数発のキーワードスポッティングとして定式化し、メートル法学習を用いてアプローチする。
そこで我々は,ネットワーク上の時間的および拡張的畳み込みを用いたプロトタイプ的な数ショットキーワードスポッティング問題に対する解を提案する。
論文 参考訳(メタデータ) (2020-07-25T20:17:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。