論文の概要: Fusion of Embeddings Networks for Robust Combination of Text Dependent
and Independent Speaker Recognition
- arxiv url: http://arxiv.org/abs/2106.10169v1
- Date: Fri, 18 Jun 2021 15:01:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 18:48:31.063815
- Title: Fusion of Embeddings Networks for Robust Combination of Text Dependent
and Independent Speaker Recognition
- Title(参考訳): テキスト依存と独立話者認識のロバストな組み合わせのための埋め込みネットワークの融合
- Authors: Ruirui Li, Chelsea J.-T. Ju, Zeya Chen, Hongda Mao, Oguz Elibol,
Andreas Stolcke
- Abstract要約: 本稿では,統合学習とニューラルアテンションを組み合わせた組込みネットワークフェネネットアーキテクチャの融合を提案する。
フェネトはベースラインやスコア融合法よりも精度が高く、特に不完全入力の存在下では精度が高いことを示す。
- 参考スコア(独自算出の注目度): 12.208699083603372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By implicitly recognizing a user based on his/her speech input, speaker
identification enables many downstream applications, such as personalized
system behavior and expedited shopping checkouts. Based on whether the speech
content is constrained or not, both text-dependent (TD) and text-independent
(TI) speaker recognition models may be used. We wish to combine the advantages
of both types of models through an ensemble system to make more reliable
predictions. However, any such combined approach has to be robust to incomplete
inputs, i.e., when either TD or TI input is missing. As a solution we propose a
fusion of embeddings network foenet architecture, combining joint learning with
neural attention. We compare foenet with four competitive baseline methods on a
dataset of voice assistant inputs, and show that it achieves higher accuracy
than the baseline and score fusion methods, especially in the presence of
incomplete inputs.
- Abstract(参考訳): 音声入力に基づいてユーザを暗黙的に認識することにより、話者識別は、パーソナライズされたシステム行動や迅速なショッピングチェックアウトなど、多くの下流アプリケーションを可能にする。
音声内容が制約されているか否かに基づいて、テキスト依存(TD)とテキスト非依存(TI)の両方の話者認識モデルを用いることができる。
我々は,両モデルの利点をアンサンブルシステムを通じて組み合わせ,より信頼性の高い予測をしたい。
しかしながら、そのような結合アプローチは不完全な入力、すなわちtdまたはti入力が欠落している場合に対して堅牢でなければならない。
そこで本研究では,統合学習とニューラルアテンションを組み合わせた組込みネットワークフォエネットアーキテクチャの融合を提案する。
フェネトと音声アシスタント入力のデータセット上での4つの競合ベースライン法を比較し、特に不完全入力の存在下で、ベースラインとスコア融合法よりも高い精度を達成することを示す。
関連論文リスト
- Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Learning Audio-Visual embedding for Wild Person Verification [18.488385598522125]
本稿では,融合の観点からアグリゲータを考慮した音声視覚ネットワークを提案する。
顔認証において初めて注意統計のプールを改良した。
最後に、モダリティをゲートアテンション機構で融合する。
論文 参考訳(メタデータ) (2022-09-09T02:29:47Z) - Leveraging Acoustic Contextual Representation by Audio-textual
Cross-modal Learning for Conversational ASR [25.75615870266786]
先行する音声から直接文脈表現を学習するための音声・テキスト・モーダル表現抽出器を提案する。
提案手法の有効性を複数のマンダリン会話コーパスで検証した。
論文 参考訳(メタデータ) (2022-07-03T13:32:24Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - UniCon: Unified Context Network for Robust Active Speaker Detection [111.90529347692723]
我々は、堅牢なアクティブ話者検出(ASD)のための新しい効率的なフレームワークUnified Context Network(UniCon)を導入する。
私たちのソリューションは、複数の種類のコンテキスト情報を共同でモデリングすることに焦点を当てた、新しく統合されたフレームワークです。
異なる設定下で、いくつかの挑戦的なASDベンチマークで徹底的なアブレーション研究が実施されている。
論文 参考訳(メタデータ) (2021-08-05T13:25:44Z) - Explaining Neural Network Predictions on Sentence Pairs via Learning
Word-Group Masks [21.16662651409811]
入力テキストペアから相関語をグループ化して単語相関を暗黙的に検出するグループマスク(GMASK)手法を提案する。
提案手法は4つのデータセットにまたがる2つの異なるモデルアーキテクチャ (decomposable attention model と bert) を用いて評価した。
論文 参考訳(メタデータ) (2021-04-09T17:14:34Z) - Speak or Chat with Me: End-to-End Spoken Language Understanding System
with Flexible Inputs [21.658650440278063]
本稿では, 音声, ASR 転写文, あるいはその両方から, フレキシブルな入力から意図を予測できる新しいシステムを提案する。
本実験は,これらの事前学習および微調整戦略に有意な優位性を示し,競争目的分類性能を実現するシステムを実現した。
論文 参考訳(メタデータ) (2021-04-07T20:48:08Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。