論文の概要: EML Online Speech Activity Detection for the Fearless Steps Challenge
Phase-III
- arxiv url: http://arxiv.org/abs/2106.11075v1
- Date: Mon, 21 Jun 2021 12:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:15:46.716019
- Title: EML Online Speech Activity Detection for the Fearless Steps Challenge
Phase-III
- Title(参考訳): EML Online Speech Activity Detection for the Fearless Steps Challenge-III
- Authors: Omid Ghahabi, Volker Fischer
- Abstract要約: 本稿では、Fearless Steps Challengeの最新のフェーズにおけるオンラインアルゴリズムについて述べる。
提案アルゴリズムは教師なしと教師なしの両方で訓練することができる。
実験では、単一のCPUマシンを使用して、約0.002のリアルタイム係数を持つ開発データセットと評価データセットの両方で、競合する精度を示す。
- 参考スコア(独自算出の注目度): 7.047338765733677
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech Activity Detection (SAD), locating speech segments within an audio
recording, is a main part of most speech technology applications. Robust SAD is
usually more difficult in noisy conditions with varying signal-to-noise ratios
(SNR). The Fearless Steps challenge has recently provided such data from the
NASA Apollo-11 mission for different speech processing tasks including SAD.
Most audio recordings are degraded by different kinds and levels of noise
varying within and between channels. This paper describes the EML online
algorithm for the most recent phase of this challenge. The proposed algorithm
can be trained both in a supervised and unsupervised manner and assigns speech
and non-speech labels at runtime approximately every 0.1 sec. The experimental
results show a competitive accuracy on both development and evaluation datasets
with a real-time factor of about 0.002 using a single CPU machine.
- Abstract(参考訳): 音声中の音声セグメントを同定する音声活動検出(sad)は、ほとんどの音声技術応用の主要な部分である。
ロバストSADは通常、信号対雑音比 (SNR) の異なる雑音条件下では困難である。
Fearless Stepsチャレンジは、SADを含むさまざまな音声処理タスクのために、NASAのアポロ11号ミッションからそのようなデータを最近提供した。
ほとんどのオーディオ録音は、チャンネル内およびチャンネル間で異なる種類のノイズレベルによって劣化する。
本稿では,この課題の最新段階のEMLオンラインアルゴリズムについて述べる。
提案アルゴリズムは教師なしと教師なしの両方で訓練でき、約0.1秒毎に実行時に音声ラベルと非音声ラベルを割り当てる。
実験の結果,単一のcpuマシンを用いて,実時間係数約0.002で開発・評価データセットの競合精度を示した。
関連論文リスト
- A contrastive-learning approach for auditory attention detection [11.28441753596964]
本稿では,参加音声信号の潜在表現と対応する脳波信号との差を最小化するために,自己教師付き学習に基づく手法を提案する。
この結果と以前に公表した手法を比較し,検証セット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-24T03:13:53Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文 参考訳(メタデータ) (2024-04-20T06:32:00Z) - Towards Event Extraction from Speech with Contextual Clues [61.164413398231254]
本稿では,音声イベント抽出(SpeechEE)タスクを導入し,3つの合成トレーニングセットと1つの人為的テストセットを構築した。
テキストからのイベント抽出と比較して、SpeechEEは、主に連続的で単語境界を持たない複雑な音声信号のために、より大きな課題を提起する。
我々の手法はすべてのデータセットに大幅な改善をもたらし、最大10.7%のF1ゲインを達成する。
論文 参考訳(メタデータ) (2024-01-27T11:07:19Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Implicit Acoustic Echo Cancellation for Keyword Spotting and
Device-Directed Speech Detection [2.7393821783237184]
多くの音声対応のヒューマンマシンインタラクションシナリオでは、ユーザ音声はデバイスがオーディオを再生するときに重複する可能性がある。
そこで我々は,ニューラルネットワークをトレーニングし,参照マイクロホンチャネルからの付加情報を利用する暗黙の音響エコーキャンセリングフレームワークを提案する。
デバイス再生条件下でDDDタスクの偽リジェクト率を56%削減することを示す。
論文 参考訳(メタデータ) (2021-11-20T17:21:16Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - Detection of Glottal Closure Instants from Speech Signals: a
Quantitative Review [9.351195374919365]
最先端の5つのGCI検出アルゴリズムを6つのデータベースを用いて比較する。
これらの手法の有効性は, 可読性と精度の両面から, クリーン音声で評価される。
クリーン音声では, SEDREAMS と YAGA が識別率と精度の両面で最良であることを示す。
論文 参考訳(メタデータ) (2019-12-28T14:12:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。