Fugu-MT 論文翻訳(概要): Temporarily-Aware Context Modelling using Generative Adversarial Networks for Speech Activity Detection

論文の概要: Temporarily-Aware Context Modelling using Generative Adversarial Networks for Speech Activity Detection

arxiv url: http://arxiv.org/abs/2004.01546v1
Date: Thu, 2 Apr 2020 02:33:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-17 10:05:26.135590
Title: Temporarily-Aware Context Modelling using Generative Adversarial Networks for Speech Activity Detection
Title（参考訳）: 音声活動検出のためのジェネレーティブ・ディバーショナル・ネットワークを用いた時間的コンテキストモデリング
Authors: Tharindu Fernando, Sridha Sridharan, Mitchell McLaren, Darshana Priyasad, Simon Denman, Clinton Fookes
Abstract要約: 音声活動検出(SAD)のための新しい共同学習フレームワークを提案する。我々は、生成した敵対的ネットワークを利用して、次の音声セグメントと共にフレームワイド音声/非音声分類の共用予測のための損失関数を自動学習する。 NIST OpenSAT' 17 や AMI Meeting,HAVIC など,複数の公開ベンチマーク上で提案するフレームワークの評価を行った。
参考スコア（独自算出の注目度）: 43.662221486962274
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a novel framework for Speech Activity Detection (SAD). Inspired by the recent success of multi-task learning approaches in the speech processing domain, we propose a novel joint learning framework for SAD. We utilise generative adversarial networks to automatically learn a loss function for joint prediction of the frame-wise speech/ non-speech classifications together with the next audio segment. In order to exploit the temporal relationships within the input signal, we propose a temporal discriminator which aims to ensure that the predicted signal is temporally consistent. We evaluate the proposed framework on multiple public benchmarks, including NIST OpenSAT' 17, AMI Meeting and HAVIC, where we demonstrate its capability to outperform state-of-the-art SAD approaches. Furthermore, our cross-database evaluations demonstrate the robustness of the proposed approach across different languages, accents, and acoustic environments.
Abstract（参考訳）: 本稿では,音声活動検出(SAD)のための新しいフレームワークを提案する。音声処理領域におけるマルチタスク学習手法の成功に触発されて,SADのための新しい共同学習フレームワークを提案する。本稿では,生成型adversarial networkを用いて,フレーム毎の音声/非音声分類と次の音声セグメントの同時予測のための損失関数を自動学習する。入力信号内の時間的関係を利用するために,予測信号の時間的一貫性を確保することを目的とした時間的判別器を提案する。 NIST OpenSAT' 17 や AMI Meeting や HAVIC など,複数の公開ベンチマーク上で提案するフレームワークを評価し,最先端の SAD アプローチより優れていることを示す。さらに,提案手法が様々な言語,アクセント,音響環境にまたがって頑健であることを示す。

関連論文リスト

Detect Any Sound: Open-Vocabulary Sound Event Detection with Multi-Modal Queries [23.83866791274789]
マルチモーダルクエリによってガイドされるオープン語彙SEDのための問合せベースのフレームワークを提案する。 DASMはSEDをフレームレベルの検索タスクとして定式化し、音声機能はテキストやオーディオプロンプトからのクエリベクトルと一致している。 DASMは、局所化精度と新しいクラスへの一般化のバランスを効果的に保ち、オープン語彙設定においてCLAPベースの手法より優れている。
論文参考訳（メタデータ） (2025-07-22T08:24:01Z)
Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文参考訳（メタデータ） (2024-09-30T06:29:58Z)
Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文参考訳（メタデータ） (2023-10-14T23:16:05Z)
End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文参考訳（メタデータ） (2022-03-27T08:55:28Z)
Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文参考訳（メタデータ） (2022-03-18T06:40:39Z)
Conversational speech recognition leveraging effective fusion methods for cross-utterance language modeling [12.153618111267514]
音声認識における言語モデリングのための異種会話履歴融合手法を提案する。現在の発話の音響埋め込みとそれに対応する会話履歴のセマンティックコンテンツとを融合して利用する新しい音声融合機構が導入された。我々は,ASR N-best仮説再構成タスクを予測問題として,象徴的な事前学習型LMであるBERTを活用する。
論文参考訳（メタデータ） (2021-11-05T09:07:23Z)
With a Little Help from my Temporal Context: Multimodal Egocentric Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文参考訳（メタデータ） (2021-11-01T15:27:35Z)
Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。 TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文参考訳（メタデータ） (2021-03-30T08:09:49Z)
Investigating Cross-Domain Losses for Speech Enhancement [7.641695369120866]
近年,音声強調(SE)と認識のためのフレームワークが急増している。本研究では,それぞれのアプローチの利点について,音声の明瞭さと品質に対する影響を別々に調べて検討する。
論文参考訳（メタデータ） (2020-10-20T17:28:07Z)
Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文参考訳（メタデータ） (2020-01-30T18:01:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。