論文の概要: EML Online Speech Activity Detection for the Fearless Steps Challenge
Phase-III
- arxiv url: http://arxiv.org/abs/2106.11075v1
- Date: Mon, 21 Jun 2021 12:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:15:46.716019
- Title: EML Online Speech Activity Detection for the Fearless Steps Challenge
Phase-III
- Title(参考訳): EML Online Speech Activity Detection for the Fearless Steps Challenge-III
- Authors: Omid Ghahabi, Volker Fischer
- Abstract要約: 本稿では、Fearless Steps Challengeの最新のフェーズにおけるオンラインアルゴリズムについて述べる。
提案アルゴリズムは教師なしと教師なしの両方で訓練することができる。
実験では、単一のCPUマシンを使用して、約0.002のリアルタイム係数を持つ開発データセットと評価データセットの両方で、競合する精度を示す。
- 参考スコア(独自算出の注目度): 7.047338765733677
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech Activity Detection (SAD), locating speech segments within an audio
recording, is a main part of most speech technology applications. Robust SAD is
usually more difficult in noisy conditions with varying signal-to-noise ratios
(SNR). The Fearless Steps challenge has recently provided such data from the
NASA Apollo-11 mission for different speech processing tasks including SAD.
Most audio recordings are degraded by different kinds and levels of noise
varying within and between channels. This paper describes the EML online
algorithm for the most recent phase of this challenge. The proposed algorithm
can be trained both in a supervised and unsupervised manner and assigns speech
and non-speech labels at runtime approximately every 0.1 sec. The experimental
results show a competitive accuracy on both development and evaluation datasets
with a real-time factor of about 0.002 using a single CPU machine.
- Abstract(参考訳): 音声中の音声セグメントを同定する音声活動検出(sad)は、ほとんどの音声技術応用の主要な部分である。
ロバストSADは通常、信号対雑音比 (SNR) の異なる雑音条件下では困難である。
Fearless Stepsチャレンジは、SADを含むさまざまな音声処理タスクのために、NASAのアポロ11号ミッションからそのようなデータを最近提供した。
ほとんどのオーディオ録音は、チャンネル内およびチャンネル間で異なる種類のノイズレベルによって劣化する。
本稿では,この課題の最新段階のEMLオンラインアルゴリズムについて述べる。
提案アルゴリズムは教師なしと教師なしの両方で訓練でき、約0.1秒毎に実行時に音声ラベルと非音声ラベルを割り当てる。
実験の結果,単一のcpuマシンを用いて,実時間係数約0.002で開発・評価データセットの競合精度を示した。
関連論文リスト
- Towards Event Extraction from Speech with Contextual Clues [61.164413398231254]
本稿では,音声イベント抽出(SpeechEE)タスクを導入し,3つの合成トレーニングセットと1つの人為的テストセットを構築した。
テキストからのイベント抽出と比較して、SpeechEEは、主に連続的で単語境界を持たない複雑な音声信号のために、より大きな課題を提起する。
我々の手法はすべてのデータセットに大幅な改善をもたらし、最大10.7%のF1ゲインを達成する。
論文 参考訳(メタデータ) (2024-01-27T11:07:19Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Implicit Acoustic Echo Cancellation for Keyword Spotting and
Device-Directed Speech Detection [2.7393821783237184]
多くの音声対応のヒューマンマシンインタラクションシナリオでは、ユーザ音声はデバイスがオーディオを再生するときに重複する可能性がある。
そこで我々は,ニューラルネットワークをトレーニングし,参照マイクロホンチャネルからの付加情報を利用する暗黙の音響エコーキャンセリングフレームワークを提案する。
デバイス再生条件下でDDDタスクの偽リジェクト率を56%削減することを示す。
論文 参考訳(メタデータ) (2021-11-20T17:21:16Z) - CASA-Based Speaker Identification Using Cascaded GMM-CNN Classifier in
Noisy and Emotional Talking Conditions [1.6449390849183358]
本研究の目的は、雑音や感情的な発話条件などの実際の応用状況において、テキストに依存しない話者識別性能を高めることである。
本研究は,感情的・高雑音的環境下での話者識別の精度向上のための新しいアルゴリズムを提案し,評価する。
論文 参考訳(メタデータ) (2021-02-11T08:56:12Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - High Performance Sequence-to-Sequence Model for Streaming Speech
Recognition [19.488757267198498]
標準的な音声認識タスクにおいて、シーケンス・ツー・シーケンスのモデルが最先端のパフォーマンスを達成するようになった。
しかし、音声データの入力ストリーム上でランオン認識を行う場合、これらのモデルはいくつかの課題に直面している。
注意機構の不確実性を制御する追加の損失関数、部分的、安定な仮説を識別するビーム探索、エンコーダにおけるBLSTMの動作方法、チャンクされたBLSTMの使用を提案する。
論文 参考訳(メタデータ) (2020-03-22T23:04:32Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z) - Detection of Glottal Closure Instants from Speech Signals: a
Quantitative Review [9.351195374919365]
最先端の5つのGCI検出アルゴリズムを6つのデータベースを用いて比較する。
これらの手法の有効性は, 可読性と精度の両面から, クリーン音声で評価される。
クリーン音声では, SEDREAMS と YAGA が識別率と精度の両面で最良であることを示す。
論文 参考訳(メタデータ) (2019-12-28T14:12:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。