論文の概要: HiSSNet: Sound Event Detection and Speaker Identification via
Hierarchical Prototypical Networks for Low-Resource Headphones
- arxiv url: http://arxiv.org/abs/2303.07538v1
- Date: Mon, 13 Mar 2023 23:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 17:04:14.240989
- Title: HiSSNet: Sound Event Detection and Speaker Identification via
Hierarchical Prototypical Networks for Low-Resource Headphones
- Title(参考訳): HiSSNet:低音源ヘッドホンのための階層型プロトタイプネットワークによる音声事象検出と話者同定
- Authors: N Shashaank, Berker Banar, Mohammad Rasool Izadi, Jeremy Kemmerer,
Shuo Zhang, Chuan-Che (Jeff) Huang
- Abstract要約: HiSSNetは、階層型ネットワークを使用して一般的な音と特定の音の両方を検出するSEID(SEDとSID)モデルである。
HiSSNetは非階層型プロトタイプネットワークを用いてトレーニングされたSEIDモデルを6.9~8.6%上回っていることを示す。
- 参考スコア(独自算出の注目度): 5.494830521464948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern noise-cancelling headphones have significantly improved users'
auditory experiences by removing unwanted background noise, but they can also
block out sounds that matter to users. Machine learning (ML) models for sound
event detection (SED) and speaker identification (SID) can enable headphones to
selectively pass through important sounds; however, implementing these models
for a user-centric experience presents several unique challenges. First, most
people spend limited time customizing their headphones, so the sound detection
should work reasonably well out of the box. Second, the models should be able
to learn over time the specific sounds that are important to users based on
their implicit and explicit interactions. Finally, such models should have a
small memory footprint to run on low-power headphones with limited on-chip
memory. In this paper, we propose addressing these challenges using HiSSNet
(Hierarchical SED and SID Network). HiSSNet is an SEID (SED and SID) model that
uses a hierarchical prototypical network to detect both general and specific
sounds of interest and characterize both alarm-like and speech sounds. We show
that HiSSNet outperforms an SEID model trained using non-hierarchical
prototypical networks by 6.9 - 8.6 percent. When compared to state-of-the-art
(SOTA) models trained specifically for SED or SID alone, HiSSNet achieves
similar or better performance while reducing the memory footprint required to
support multiple capabilities on-device.
- Abstract(参考訳): 最近のノイズキャンセリングヘッドホンは、望ましくないバックグラウンドノイズを取り除くことで、ユーザーの聴覚体験を大幅に改善しているが、ユーザにとって重要な音をブロックすることもできる。
音声イベント検出(SED)と話者識別(SID)のための機械学習(ML)モデルは、ヘッドフォンが重要な音を選択的に通過することを可能にするが、ユーザ中心のエクスペリエンスのためにこれらのモデルを実装することは、いくつかの固有の課題をもたらす。
まず、ほとんどの人がヘッドフォンのカスタマイズに費やす時間が限られているので、音検出はすぐにうまく機能するはずです。
第二に、モデルは、暗黙的かつ明示的な相互作用に基づいて、ユーザにとって重要な特定の音を時間とともに学習できるべきである。
最後に、そのようなモデルは、オンチップメモリの限られた低消費電力ヘッドフォンで動作させるために、小さなメモリフットプリントを持つ必要がある。
本稿では,HiSSNet (Hierarchical SED and SID Network) を用いて,これらの課題に対処することを提案する。
HiSSNetは、階層的なプロトタイプネットワークを用いて、一般的な音と特定の音の両方を検出し、アラームのような音と音声の両方を特徴付けるSEID(SEDおよびSID)モデルである。
HiSSNetは非階層型プロトタイプネットワークを用いてトレーニングされたSEIDモデルを6.9~8.6%上回っている。
SEDやSID専用にトレーニングされた最新技術(SOTA)モデルと比較して、HiSSNetは、デバイス上で複数の機能をサポートするために必要なメモリフットプリントを削減しつつ、同様のまたはより良いパフォーマンスを実現している。
関連論文リスト
- Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - E-PANNs: Sound Recognition Using Efficient Pre-trained Audio Neural
Networks [20.931028377435034]
PANNsモデルの計算複雑性とメモリ要求の低減方法を示す。
E-PANNsモデルのコードはオープンソースライセンスでリリースされた。
論文 参考訳(メタデータ) (2023-05-30T00:08:55Z) - Personal VAD 2.0: Optimizing Personal Voice Activity Detection for
On-Device Speech Recognition [19.262038608713755]
近年,デバイス上での音声認識(ASR)のパーソナライゼーションは爆発的な成長を遂げている。
パーソナライズされた音声活動検知器であるPersonal VAD 2.0は、ストリーミングオンデバイスASRシステムの一部として、ターゲット話者の音声活動を検出する。
論文 参考訳(メタデータ) (2022-04-08T00:49:19Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Retrieving Speaker Information from Personalized Acoustic Models for
Speech Recognition [5.1229352884025845]
本稿では,この話者に局所的に適応したニューラル音響モデルの重み行列変化を利用して,話者の性別を復元できることを示す。
本稿では,この話者に局所的に適応したニューラル音響モデルの重み行列変化を利用するだけで,話者の性別を復元することができることを示す。
論文 参考訳(メタデータ) (2021-11-07T22:17:52Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。