Fugu-MT 論文翻訳(概要): Voice Activity Detection for Transient Noisy Environment Based on Diffusion Nets

論文の概要: Voice Activity Detection for Transient Noisy Environment Based on Diffusion Nets

arxiv url: http://arxiv.org/abs/2106.13763v1
Date: Fri, 25 Jun 2021 17:05:26 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-28 12:51:14.957554
Title: Voice Activity Detection for Transient Noisy Environment Based on Diffusion Nets
Title（参考訳）: 拡散ネットに基づく過渡雑音環境における音声活動検出
Authors: Amir Ivry, Baruch Berdugo, Israel Cohen
Abstract要約: 過渡音と定常音の音響環境における音声活動検出について検討する。音声フレームと非音声音声フレームの空間パターンを独立に学習し,その基礎となる幾何学的構造を学習する。ディープニューラルネットワークは、音声フレームと非音声フレームを分離するように訓練される。
参考スコア（独自算出の注目度）: 13.558688470594674
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We address voice activity detection in acoustic environments of transients and stationary noises, which often occur in real life scenarios. We exploit unique spatial patterns of speech and non-speech audio frames by independently learning their underlying geometric structure. This process is done through a deep encoder-decoder based neural network architecture. This structure involves an encoder that maps spectral features with temporal information to their low-dimensional representations, which are generated by applying the diffusion maps method. The encoder feeds a decoder that maps the embedded data back into the high-dimensional space. A deep neural network, which is trained to separate speech from non-speech frames, is obtained by concatenating the decoder to the encoder, resembling the known Diffusion nets architecture. Experimental results show enhanced performance compared to competing voice activity detection methods. The improvement is achieved in both accuracy, robustness and generalization ability. Our model performs in a real-time manner and can be integrated into audio-based communication systems. We also present a batch algorithm which obtains an even higher accuracy for off-line applications.
Abstract（参考訳）: 実生活シナリオにおいてしばしば発生する過渡音と定常音の音響環境における音声活動の検出に対処する。音声と非音声の空間的パターンを独立に学習し,その基礎となる幾何学的構造を学習する。このプロセスはディープエンコーダ-デコーダベースのニューラルネットワークアーキテクチャを通じて行われる。この構造は、時間的情報を持つスペクトル特徴を拡散写像法を適用して生成される低次元表現にマッピングするエンコーダを含んでいる。エンコーダは、埋め込みデータを高次元空間にマッピングするデコーダを供給する。非音声フレームから音声を分離するように訓練されたディープニューラルネットワークは、既知の拡散ネットアーキテクチャに似たエンコーダにデコーダを結合することで得られる。実験の結果, 競合音声活動検出法と比較して, 性能が向上した。この改善は精度、堅牢性、一般化能力の両方で達成される。我々のモデルはリアルタイムに動作し、音声ベースの通信システムに統合することができる。また,オフラインアプリケーションに対して,より高精度なバッチアルゴリズムを提案する。

関連論文リスト

SigWavNet: Learning Multiresolution Signal Wavelet Network for Speech Emotion Recognition [17.568724398229232]
音声感情認識(SER)は、音声信号の解読から感情状態において重要な役割を果たす。本稿では,SERのための新しいエンド・ツー・エンド(E2E)深層学習フレームワークを提案する。ウェーブレットの能力を利用して、時間領域と周波数領域の両方で効果的なローカライズを行う。
論文参考訳（メタデータ） (2025-02-01T04:18:06Z)
Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。同様のビットレートでEncodecを上回るパイプラインを導入する。
論文参考訳（メタデータ） (2024-07-03T20:51:41Z)
Parameter Efficient Audio Captioning With Faithful Guidance Using Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文参考訳（メタデータ） (2023-09-06T19:42:52Z)
An investigation of the reconstruction capacity of stacked convolutional autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文参考訳（メタデータ） (2023-01-18T17:19:04Z)
Disentangled Feature Learning for Real-Time Neural Speech Coding [24.751813940000993]
本稿では,視覚的なエンドツーエンド学習の代わりに,リアルタイムなニューラル音声符号化のための非絡み合った特徴を学習することを提案する。学習された不整合特徴は、現代の自己教師付き音声表現学習モデルを用いて、任意の音声変換において同等の性能を示す。
論文参考訳（メタデータ） (2022-11-22T02:50:12Z)
NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文参考訳（メタデータ） (2022-09-29T04:06:00Z)
DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文参考訳（メタデータ） (2021-10-13T01:39:57Z)
Timbre Transfer with Variational Auto Encoding and Cycle-Consistent Adversarial Networks [0.6445605125467573]
本研究は,音源音の音色を目標音の音色に変換し,音質の低下を最小限に抑えた深層学習の音色伝達への適用について検討する。この手法は、変分オートエンコーダとジェネレーティブ・アドバイサル・ネットワークを組み合わせて、音源の有意義な表現を構築し、ターゲット音声の現実的な世代を生成する。
論文参考訳（メタデータ） (2021-09-05T15:06:53Z)
Dynamic Neural Representational Decoders for High-Resolution Semantic Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文参考訳（メタデータ） (2021-07-30T04:50:56Z)
Data Fusion for Audiovisual Speaker Localization: Extending Dynamic Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文参考訳（メタデータ） (2021-02-23T09:59:31Z)
Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文参考訳（メタデータ） (2020-01-08T18:58:02Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。