論文の概要: Noise-Agnostic Multitask Whisper Training for Reducing False Alarm Errors in Call-for-Help Detection
- arxiv url: http://arxiv.org/abs/2501.11631v1
- Date: Mon, 20 Jan 2025 18:01:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:20:24.296674
- Title: Noise-Agnostic Multitask Whisper Training for Reducing False Alarm Errors in Call-for-Help Detection
- Title(参考訳): コール・フォー・ヘルプ検出における偽アラーム誤差低減のためのノイズ非依存型マルチタスクウィスパートレーニング
- Authors: Myeonghoon Ryu, June-Woo Kim, Minseok Oh, Suji Lee, Han Park,
- Abstract要約: 本稿では,ASRエンコーダにノイズ分類ヘッドを組み込んだマルチタスク学習手法を提案する。
提案手法は, ノイズの多い環境に対するモデルの堅牢性を高め, 誤報を著しく低減し, 全体的なコール・フォー・ヘルプ性能を向上する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Keyword spotting is often implemented by keyword classifier to the encoder in acoustic models, enabling the classification of predefined or open vocabulary keywords. Although keyword spotting is a crucial task in various applications and can be extended to call-for-help detection in emergencies, however, the previous method often suffers from scalability limitations due to retraining required to introduce new keywords or adapt to changing contexts. We explore a simple yet effective approach that leverages off-the-shelf pretrained ASR models to address these challenges, especially in call-for-help detection scenarios. Furthermore, we observed a substantial increase in false alarms when deploying call-for-help detection system in real-world scenarios due to noise introduced by microphones or different environments. To address this, we propose a novel noise-agnostic multitask learning approach that integrates a noise classification head into the ASR encoder. Our method enhances the model's robustness to noisy environments, leading to a significant reduction in false alarms and improved overall call-for-help performance. Despite the added complexity of multitask learning, our approach is computationally efficient and provides a promising solution for call-for-help detection in real-world scenarios.
- Abstract(参考訳): キーワードスポッティングは、しばしばキーワード分類器によって音響モデルのエンコーダに実装され、事前に定義されたまたはオープンな語彙キーワードの分類を可能にする。
キーワードスポッティングは様々なアプリケーションにおいて重要なタスクであり、緊急時にコール・フォー・ヘルプ検出に拡張できるが、以前の手法では新しいキーワードの導入やコンテキストの変更に適応するために再トレーニングを必要とするため、スケーラビリティの制限に悩まされることが多い。
市販のASRモデルを利用してこれらの課題、特にコール・フォー・ヘルプ検出シナリオに対処する、シンプルで効果的なアプローチを探索する。
さらに,マイクロホンや異なる環境から発生するノイズにより,現実のシナリオにコール・フォー・ヘルプ検出システムを展開する際の誤報が著しく増加した。
そこで本研究では,ASRエンコーダにノイズ分類ヘッドを組み込んだ,ノイズ非依存型マルチタスク学習手法を提案する。
提案手法は, ノイズの多い環境に対するモデルの堅牢性を高め, 誤報を著しく低減し, 全体的なコール・フォー・ヘルプ性能を向上する。
マルチタスク学習の複雑さが増しているにもかかわらず、我々の手法は計算効率が良く、現実のシナリオでのコール・フォー・ヘルプ検出に有望なソリューションを提供する。
関連論文リスト
- Enhancing Noise Robustness of Retrieval-Augmented Language Models with Adaptive Adversarial Training [39.21885486667879]
大型言語モデル(LLM)は、幻覚、時代遅れの知識、追跡不能な推論プロセスなどの課題に遭遇する重大な能力を示す。
Retrieval-augmented Generation(RAG)は、これらの課題を軽減するために、外部データベースからの知識を統合する、有望なソリューションとして登場した。
本稿では,RAAT(Retrieval-augmented Adaptive Adrial Training)として知られる新しいRAGアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-31T16:24:53Z) - Robust Tiny Object Detection in Aerial Images amidst Label Noise [50.257696872021164]
本研究は,ノイズラベル管理下での微小物体検出の問題に対処する。
本稿では,DN-TOD(Denoising Tiny Object Detector)を提案する。
本手法は,1段と2段の両方のオブジェクト検出パイプラインにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-01-16T02:14:33Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Personalizing Keyword Spotting with Speaker Information [11.4457776449367]
キーワードスポッティングシステムは、様々なアクセントと年齢グループを持つ多様な人口に一般化するのに苦労することが多い。
特徴量線形変調(FiLM)を用いたキーワードスポッティングに話者情報を統合する新しい手法を提案する。
提案手法では,パラメータ数が1%増加し,レイテンシと計算コストが最小限に抑えられた。
論文 参考訳(メタデータ) (2023-11-06T12:16:06Z) - A Multitask Training Approach to Enhance Whisper with Contextual Biasing and Open-Vocabulary Keyword Spotting [14.713947276478647]
キーワードスポッティング強化Whisper(KWS-Whisper)を導入し,ユーザ定義された名前付きエンティティを認識する。
モデル最適化のために,OV-KWSとコンテキストASRタスクを学習するマルチタスク学習手法を提案する。
我々は,OV-KWS が ASR 誤り訂正法と凍結ウィスパーモデルを強化するためのプラグイン・アンド・プレイモジュールであることが実証された。
論文 参考訳(メタデータ) (2023-09-18T08:03:54Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - To Wake-up or Not to Wake-up: Reducing Keyword False Alarm by Successive
Refinement [58.96644066571205]
既存の深層キーワードスポッティング機構は逐次リファインメントにより改善可能であることを示す。
13Kパラメーターから2.41Mパラメーターまで、複数のモデルにまたがって、連続精製法はFAを最大8.5%削減する。
提案手法は"plug-and-play"であり,任意の深いキーワードスポッティングモデルに適用できる。
論文 参考訳(メタデータ) (2023-04-06T23:49:29Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。