論文の概要: Temporarily-Aware Context Modelling using Generative Adversarial
Networks for Speech Activity Detection
- arxiv url: http://arxiv.org/abs/2004.01546v1
- Date: Thu, 2 Apr 2020 02:33:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 10:05:26.135590
- Title: Temporarily-Aware Context Modelling using Generative Adversarial
Networks for Speech Activity Detection
- Title(参考訳): 音声活動検出のためのジェネレーティブ・ディバーショナル・ネットワークを用いた時間的コンテキストモデリング
- Authors: Tharindu Fernando, Sridha Sridharan, Mitchell McLaren, Darshana
Priyasad, Simon Denman, Clinton Fookes
- Abstract要約: 音声活動検出(SAD)のための新しい共同学習フレームワークを提案する。
我々は、生成した敵対的ネットワークを利用して、次の音声セグメントと共にフレームワイド音声/非音声分類の共用予測のための損失関数を自動学習する。
NIST OpenSAT' 17 や AMI Meeting,HAVIC など,複数の公開ベンチマーク上で提案するフレームワークの評価を行った。
- 参考スコア(独自算出の注目度): 43.662221486962274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel framework for Speech Activity Detection (SAD).
Inspired by the recent success of multi-task learning approaches in the speech
processing domain, we propose a novel joint learning framework for SAD. We
utilise generative adversarial networks to automatically learn a loss function
for joint prediction of the frame-wise speech/ non-speech classifications
together with the next audio segment. In order to exploit the temporal
relationships within the input signal, we propose a temporal discriminator
which aims to ensure that the predicted signal is temporally consistent. We
evaluate the proposed framework on multiple public benchmarks, including NIST
OpenSAT' 17, AMI Meeting and HAVIC, where we demonstrate its capability to
outperform state-of-the-art SAD approaches. Furthermore, our cross-database
evaluations demonstrate the robustness of the proposed approach across
different languages, accents, and acoustic environments.
- Abstract(参考訳): 本稿では,音声活動検出(SAD)のための新しいフレームワークを提案する。
音声処理領域におけるマルチタスク学習手法の成功に触発されて,SADのための新しい共同学習フレームワークを提案する。
本稿では,生成型adversarial networkを用いて,フレーム毎の音声/非音声分類と次の音声セグメントの同時予測のための損失関数を自動学習する。
入力信号内の時間的関係を利用するために,予測信号の時間的一貫性を確保することを目的とした時間的判別器を提案する。
NIST OpenSAT' 17 や AMI Meeting や HAVIC など,複数の公開ベンチマーク上で提案するフレームワークを評価し,最先端の SAD アプローチより優れていることを示す。
さらに,提案手法が様々な言語,アクセント,音響環境にまたがって頑健であることを示す。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Conversational speech recognition leveraging effective fusion methods
for cross-utterance language modeling [12.153618111267514]
音声認識における言語モデリングのための異種会話履歴融合手法を提案する。
現在の発話の音響埋め込みとそれに対応する会話履歴のセマンティックコンテンツとを融合して利用する新しい音声融合機構が導入された。
我々は,ASR N-best仮説再構成タスクを予測問題として,象徴的な事前学習型LMであるBERTを活用する。
論文 参考訳(メタデータ) (2021-11-05T09:07:23Z) - With a Little Help from my Temporal Context: Multimodal Egocentric
Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。
時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。
我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文 参考訳(メタデータ) (2021-11-01T15:27:35Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Investigating Cross-Domain Losses for Speech Enhancement [7.641695369120866]
近年,音声強調(SE)と認識のためのフレームワークが急増している。
本研究では,それぞれのアプローチの利点について,音声の明瞭さと品質に対する影響を別々に調べて検討する。
論文 参考訳(メタデータ) (2020-10-20T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。