論文の概要: Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning
- arxiv url: http://arxiv.org/abs/2303.03737v1
- Date: Tue, 7 Mar 2023 08:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 15:58:13.466570
- Title: Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning
- Title(参考訳): 識別学習に最適化された音声分離のための多次元・多スケールモデリング
- Authors: Zhaoxi Mu, Xinyu Yang, Wenjing Zhu
- Abstract要約: 音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
- 参考スコア(独自算出の注目度): 9.84949849886926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has shown advanced performance in speech separation, benefiting
from its ability to capture global features. However, capturing local features
and channel information of audio sequences in speech separation is equally
important. In this paper, we present a novel approach named Intra-SE-Conformer
and Inter-Transformer (ISCIT) for speech separation. Specifically, we design a
new network SE-Conformer that can model audio sequences in multiple dimensions
and scales, and apply it to the dual-path speech separation framework.
Furthermore, we propose Multi-Block Feature Aggregation to improve the
separation effect by selectively utilizing information from the intermediate
blocks of the separation network. Meanwhile, we propose a speaker similarity
discriminative loss to optimize the speech separation model to address the
problem of poor performance when speakers have similar voices. Experimental
results on the benchmark datasets WSJ0-2mix and WHAM! show that ISCIT can
achieve state-of-the-art results.
- Abstract(参考訳): Transformerは、グローバルな特徴を捉える能力の恩恵を受けて、音声分離における高度なパフォーマンスを示している。
しかし、音声分離における局所的特徴と音声系列のチャネル情報も重要である。
本稿では,音声分離のためのISCIT(Intra-SE-Conformer and Inter-Transformer)という新しい手法を提案する。
具体的には,複数次元とスケールの音声シーケンスをモデル化する新しいネットワークse-conformerを設計し,dual-path音声分離フレームワークに適用する。
さらに,分離ネットワークの中間ブロックからの情報を選択的に活用することにより,分離効果を向上させるマルチブロック特徴集合を提案する。
一方,話者が類似した音声を持つ場合の低性能問題に対処するため,発話分離モデルを最適化する話者類似度判別損失を提案する。
ベンチマークデータセットのWSJ0-2mixとWHAM!の実験結果は、ICCITが最先端の結果を得ることができることを示している。
関連論文リスト
- RAVSS: Robust Audio-Visual Speech Separation in Multi-Speaker Scenarios with Missing Visual Cues [45.095482324156606]
本稿では,複数話者の同時分離を容易にするマルチ話者分離フレームワークを提案する。
VoxCeleb2 と LRS3 のデータセットによる実験結果から,2, 3, 4, 5 話者を分離した場合に,本手法が最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2024-07-27T09:56:23Z) - Online speaker diarization of meetings guided by speech separation [0.0]
重複した音声は、話者ダイアリゼーションシステムに問題があることで知られている。
長時間録音のオンライン話者ダイアリゼーションに適した音声分離誘導ダイアリゼーション方式を提案する。
論文 参考訳(メタデータ) (2024-01-30T09:09:22Z) - Mixture Encoder Supporting Continuous Speech Separation for Meeting
Recognition [15.610658840718607]
音声分離によって導入された人工物の効果を緩和する混合エンコーダを提案する。
このアプローチを、任意の数の話者と動的重複を含む、より自然なミーティングコンテキストに拡張する。
実験では、LibriCSSデータセット上での最先端のパフォーマンスを示し、混合エンコーダの利点を強調した。
論文 参考訳(メタデータ) (2023-09-15T14:57:28Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - High-Quality Visually-Guided Sound Separation from Diverse Categories [56.92841782969847]
DAVISは拡散に基づくオーディオ視覚分離フレームワークである。
分離された音をガウス雑音から直接合成し、オーディオミックスと視覚情報の両方に条件付けする。
AVEおよびMUSICデータセット上で,DAVISを既存の最先端の識別的音声視覚分離法と比較した。
論文 参考訳(メタデータ) (2023-07-31T19:41:49Z) - Monaural Multi-Speaker Speech Separation Using Efficient Transformer
Model [0.0]
月次多話者音声分離」はトランスフォーマーアーキテクチャとその効率的な形式に基づく音声分離モデルを示す。
このモデルは、多様な話者の発話を含むLibriMixデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2023-07-29T15:10:46Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。