論文の概要: X-SepFormer: End-to-end Speaker Extraction Network with Explicit
Optimization on Speaker Confusion
- arxiv url: http://arxiv.org/abs/2303.05023v1
- Date: Thu, 9 Mar 2023 04:00:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 16:12:26.132452
- Title: X-SepFormer: End-to-end Speaker Extraction Network with Explicit
Optimization on Speaker Confusion
- Title(参考訳): X-SepFormer: 話者融合の明示的最適化によるエンドツーエンド話者抽出ネットワーク
- Authors: Kai Liu, Ziqing Du, Xucheng Wan, Huan Zhou
- Abstract要約: 本稿では、損失スキームとSepFormerのバックボーンを備えたエンドツーエンドのTSEモデルを提案する。
19.4dBのSI-SDRiと3.81のPSSQでは、私たちの最良のシステムは現在のSOTAシステムよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 5.4878772986187565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Target speech extraction (TSE) systems are designed to extract target speech
from a multi-talker mixture. The popular training objective for most prior TSE
networks is to enhance reconstruction performance of extracted speech waveform.
However, it has been reported that a TSE system delivers high reconstruction
performance may still suffer low-quality experience problems in practice. One
such experience problem is wrong speaker extraction (called speaker confusion,
SC), which leads to strong negative experience and hampers effective
conversations. To mitigate the imperative SC issue, we reformulate the training
objective and propose two novel loss schemes that explore the metric of
reconstruction improvement performance defined at small chunk-level and
leverage the metric associated distribution information. Both loss schemes aim
to encourage a TSE network to pay attention to those SC chunks based on the
said distribution information. On this basis, we present X-SepFormer, an
end-to-end TSE model with proposed loss schemes and a backbone of SepFormer.
Experimental results on the benchmark WSJ0-2mix dataset validate the
effectiveness of our proposals, showing consistent improvements on SC errors
(by 14.8% relative). Moreover, with SI-SDRi of 19.4 dB and PESQ of 3.81, our
best system significantly outperforms the current SOTA systems and offers the
top TSE results reported till date on the WSJ0-2mix.
- Abstract(参考訳): ターゲット音声抽出システム(TSE)は,多話者混合からターゲット音声を抽出するように設計されている。
従来のTSEネットワークのトレーニングの目的は,抽出した音声波形の再構成性能を向上させることである。
しかし,TSEシステムによる再現性能の向上は,実際には低品質な体験問題に悩まされることが報告されている。
そのような経験上の問題のひとつは、話者抽出の誤り(話者混乱、SC)であり、これは強い否定的な経験をもたらし、効果的な会話を妨げている。
命令的sc問題を軽減するために,訓練目標を再構成し,小さなチャンクレベルで定義された再構築改善性能の指標を探索する2つの新しい損失スキームを提案し,関連する分布情報を活用する。
どちらの損失スキームも、その分布情報に基づいて、TSEネットワークがこれらのSCチャンクに注意を払うことを奨励することを目的としている。
提案する損失スキームとSepFormerのバックボーンを備えたエンドツーエンドTSEモデルであるX-SepFormerを提案する。
ベンチマークWSJ0-2mixデータセットの実験結果から,提案手法の有効性を検証し,SC誤差を14.8%改善した。
さらに、SI-SDRiの19.4dB、PSSQの3.81では、現在のSOTAシステムよりも優れた性能を示し、WSJ0-2mixで報告されたトップTSE結果を提供する。
関連論文リスト
- Robust Zero-Shot Text-to-Speech Synthesis with Reverse Inference Optimization [34.51491788470738]
本稿では,自己回帰モデルに基づく音声合成システム(TTS)の堅牢性を高めるために,リバース推論最適化(RIO)を提案する。
RIOは、RTSシステム自体によって生成された音声サンプルからRLHFで使用される例を選択するために、逆推論を使用する。
RIOは、トレーニングと推論条件の相違を低減し、ゼロショットTS性能の安定性を著しく向上する。
論文 参考訳(メタデータ) (2024-07-02T13:04:04Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Parameter-Efficient Learning for Text-to-Speech Accent Adaptation [58.356667204518985]
本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
論文 参考訳(メタデータ) (2023-05-18T22:02:59Z) - TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization [54.41494515178297]
話者ダイアリゼーションを単一ラベル分類問題として再検討する。
話者の重なりと依存性を明示的にモデル化できる重なり認識型EEND(EEND-OLA)モデルを提案する。
オリジナルのEENDと比較すると、提案されたEEND-OLAはダイアリゼーションエラー率において14.39%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-03-08T05:05:26Z) - Improving Target Speaker Extraction with Sparse LDA-transformed Speaker
Embeddings [5.4878772986187565]
対象話者抽出のためのクラス分離性を明確にした簡易な話者キューを提案する。
提案はSI-SDRiの9.9%の相対的な改善を示す。
19.4dBのSI-SDRiと3.78のPSSQでは、私たちの最高のTSEシステムは現在のSOTAシステムよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-01-16T06:30:48Z) - The RoyalFlush System of Speech Recognition for M2MeT Challenge [5.863625637354342]
本稿では,M2MeTチャレンジにおけるマルチスピーカ自動音声認識(ASR)の追跡のためのRoyalFlushシステムについて述べる。
大規模シミュレーションデータを用いたシリアライズアウトプットトレーニング(SOT)に基づくマルチスピーカASRシステムを採用した。
我々のシステムでは、検証セットでは12.22%の絶対文字誤り率(CER)が、テストセットでは12.11%が削減された。
論文 参考訳(メタデータ) (2022-02-03T14:38:26Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - LEAP System for SRE19 CTS Challenge -- Improvements and Error Analysis [36.35711634925221]
CTSチャレンジに提出されたLEAP SREシステムの詳細な説明を提供する。
すべてのシステムは、TDNNベースのxベクトル埋め込みを使用していた。
生成的PLDAモデルとニューラルPLDAモデルの組み合わせにより、SRE評価データセットが大幅に改善された。
論文 参考訳(メタデータ) (2020-02-07T12:28:56Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。