論文の概要: Serialized Output Training by Learned Dominance
- arxiv url: http://arxiv.org/abs/2407.03966v1
- Date: Thu, 4 Jul 2024 14:36:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 17:43:28.610255
- Title: Serialized Output Training by Learned Dominance
- Title(参考訳): 学習ドミナンスによるシリアライズアウトプットトレーニング
- Authors: Ying Shi, Lantian Li, Shi Yin, Dong Wang, Jiqing Han,
- Abstract要約: SOT(Serialized Output Training)は,多話者音声認識において最先端の性能を示す。
ラベル置換の問題に対処するため、従来の手法はPIT(Permutation Invariant Training)とFIFO(First-In-First-Out)のどちらかに依存している。
本研究では,アテンション・デコーダアーキテクチャに補助モジュールを組み込んだモデルベースシリアライズ戦略を提案する。
- 参考スコア(独自算出の注目度): 24.162805510571292
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Serialized Output Training (SOT) has showcased state-of-the-art performance in multi-talker speech recognition by sequentially decoding the speech of individual speakers. To address the challenging label-permutation issue, prior methods have relied on either the Permutation Invariant Training (PIT) or the time-based First-In-First-Out (FIFO) rule. This study presents a model-based serialization strategy that incorporates an auxiliary module into the Attention Encoder-Decoder architecture, autonomously identifying the crucial factors to order the output sequence of the speech components in multi-talker speech. Experiments conducted on the LibriSpeech and LibriMix databases reveal that our approach significantly outperforms the PIT and FIFO baselines in both 2-mix and 3-mix scenarios. Further analysis shows that the serialization module identifies dominant speech components in a mixture by factors including loudness and gender, and orders speech components based on the dominance score.
- Abstract(参考訳): SOT(Serialized Output Training)は,話者の音声を逐次デコードすることで,多話者音声認識における最先端性能を示す。
ラベル置換の問題に対処するため、従来の手法はPIT(Permutation Invariant Training)とFIFO(First-In-First-Out)のどちらかに依存している。
本研究では,アテンション・エンコーダ・デコーダアーキテクチャに補助モジュールを組み込んだモデルベースシリアライズ手法を提案する。
LibriSpeech および LibriMix データベースで行った実験により,本手法は 2-mix および 3-mix のシナリオにおいて PIT と FIFO のベースラインを大幅に上回っていることがわかった。
さらに、連続化モジュールは、大音量や性別などの要因によって混合された音声成分を識別し、支配スコアに基づいて音声成分を注文する。
関連論文リスト
- Advancing Natural-Language Based Audio Retrieval with PaSST and Large
Audio-Caption Data Sets [6.617487928813374]
本稿では,事前学習されたテキストとスペクトログラム変換器に基づく音声検索システムを提案する。
我々のシステムは2023年のDCASE Challengeで第1位にランクされ、ClosoV2ベンチマークでは5.6 pp. mAP@10で最先端の技術を上回りました。
論文 参考訳(メタデータ) (2023-08-08T13:46:55Z) - An analysis on the effects of speaker embedding choice in non
auto-regressive TTS [4.619541348328938]
本稿では,非自己回帰的分解型マルチ話者音声合成アーキテクチャが,異なる話者埋め込みセットに存在する情報をどのように活用するかを理解するための最初の試みを紹介する。
使用済みの埋め込みと学習戦略にかかわらず、ネットワークは様々な話者識別を等しく扱うことができることを示す。
論文 参考訳(メタデータ) (2023-07-19T10:57:54Z) - Tackling Interpretability in Audio Classification Networks with
Non-negative Matrix Factorization [2.423660247459463]
本稿では,音声処理ネットワークの解釈可能性に関する2つの主要な課題に対処する。
ポストホックな解釈では、エンドユーザーにも聴ける高レベルオーディオオブジェクトの観点から、ネットワークの判断を解釈することを目的としている。
非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
論文 参考訳(メタデータ) (2023-05-11T20:50:51Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Serialized Output Training for End-to-End Overlapped Speech Recognition [35.894025054676696]
逐次出力訓練(SOT)はマルチ話者重畳音声認識のための新しいフレームワークである。
SOTは、複数の話者の書き起こしを次々と生成する出力層が1つしかないモデルを使用する。
SOTモデルは、PITモデルよりも話者の変動数で重なり合った音声を転写可能であることを示す。
論文 参考訳(メタデータ) (2020-03-28T02:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。