論文の概要: Monaural Multi-Speaker Speech Separation Using Efficient Transformer
Model
- arxiv url: http://arxiv.org/abs/2308.00010v1
- Date: Sat, 29 Jul 2023 15:10:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 16:49:09.485433
- Title: Monaural Multi-Speaker Speech Separation Using Efficient Transformer
Model
- Title(参考訳): 効率的なトランスフォーマモデルを用いた単調マルチスピーカー音声分離
- Authors: S. Rijal, R. Neupane, S. P. Mainali, S. K. Regmi and S. Maharjan
- Abstract要約: 月次多話者音声分離」はトランスフォーマーアーキテクチャとその効率的な形式に基づく音声分離モデルを示す。
このモデルは、多様な話者の発話を含むLibriMixデータセットでトレーニングされている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Cocktail party problem is the scenario where it is difficult to separate or
distinguish individual speaker from a mixed speech from several speakers. There
have been several researches going on in this field but the size and complexity
of the model is being traded off with the accuracy and robustness of speech
separation. "Monaural multi-speaker speech separation" presents a
speech-separation model based on the Transformer architecture and its efficient
forms. The model has been trained with the LibriMix dataset containing diverse
speakers' utterances. The model separates 2 distinct speaker sources from a
mixed audio input. The developed model approaches the reduction in
computational complexity of the speech separation model, with minimum tradeoff
with the performance of prevalent speech separation model and it has shown
significant movement towards that goal. This project foresees, a rise in
contribution towards the ongoing research in the field of speech separation
with computational efficiency at its core.
- Abstract(参考訳): コックテールパーティー問題は、複数の話者との混合音声から個々の話者を区別または区別することが難しいシナリオである。
この分野ではいくつかの研究が行われてきたが、モデルのサイズと複雑さは音声分離の正確性と堅牢性によって引き離されている。
月次多話者音声分離」はトランスフォーマーアーキテクチャとその効率的な形式に基づく音声分離モデルを示す。
このモデルは、多様な話者の発話を含むLibriMixデータセットでトレーニングされている。
モデルは、2つの異なる話者源を混合オーディオ入力から分離する。
提案モデルでは,音声分離モデルの性能と最小限のトレードオフを伴って,音声分離モデルの計算複雑性の低減にアプローチし,その目標に向かって大きな動きを示した。
このプロジェクトは、コアにおける計算効率を伴う音声分離の分野における継続的な研究への貢献の高まりを予見する。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Mixture Encoder for Joint Speech Separation and Recognition [15.13598115379631]
マルチ話者自動音声認識は多くの実世界のアプリケーションにとって不可欠である。
既存のアプローチは、モジュラーとエンドツーエンドのメソッドに分けられる。
エンドツーエンドモデルでは、重複した音声を直接単一の強力なニューラルネットワークで処理する。
論文 参考訳(メタデータ) (2023-06-21T11:01:31Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z) - Directed Speech Separation for Automatic Speech Recognition of Long Form
Conversational Speech [10.291482850329892]
混合信号から直接抽出した話者埋め込みに基づいて訓練された話者条件付きセパレータを提案する。
また,会話データに対する単語誤り率 (WER) の大幅な改善を実現した。
論文 参考訳(メタデータ) (2021-12-10T23:07:48Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Guided Training: A Simple Method for Single-channel Speaker Separation [40.34570426165019]
本稿では,話者分離における置換問題を解決するため,長期記憶モデル(LSTM)を訓練する戦略を提案する。
シーケンスモデリングの強力な能力のため、LSTMはそのメモリセルを使用して、ターゲット音声と干渉音声の追跡と分離を行うことができる。
論文 参考訳(メタデータ) (2021-03-26T08:46:50Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。