論文の概要: Learning Decoupling Features Through Orthogonality Regularization
- arxiv url: http://arxiv.org/abs/2203.16772v1
- Date: Thu, 31 Mar 2022 03:18:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 16:12:08.258916
- Title: Learning Decoupling Features Through Orthogonality Regularization
- Title(参考訳): 直交性正規化による特徴の学習
- Authors: Li Wang, Rongzhi Gu, Weiji Zhuang, Peng Gao, Yujun Wang, Yuexian Zou
- Abstract要約: 音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
- 参考スコア(独自算出の注目度): 55.79910376189138
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Keyword spotting (KWS) and speaker verification (SV) are two important tasks
in speech applications. Research shows that the state-of-art KWS and SV models
are trained independently using different datasets since they expect to learn
distinctive acoustic features. However, humans can distinguish language content
and the speaker identity simultaneously. Motivated by this, we believe it is
important to explore a method that can effectively extract common features
while decoupling task-specific features. Bearing this in mind, a two-branch
deep network (KWS branch and SV branch) with the same network structure is
developed and a novel decoupling feature learning method is proposed to push up
the performance of KWS and SV simultaneously where speaker-invariant keyword
representations and keyword-invariant speaker representations are expected
respectively. Experiments are conducted on Google Speech Commands Dataset
(GSCD). The results demonstrate that the orthogonality regularization helps the
network to achieve SOTA EER of 1.31% and 1.87% on KWS and SV, respectively.
- Abstract(参考訳): キーワードスポッティング(KWS)と話者検証(SV)は、音声アプリケーションにおいて重要な2つのタスクである。
研究によると、最先端のKWSとSVモデルは異なるデータセットを使って独立して訓練されている。
しかし、人間は言語内容と話者識別を同時に区別することができる。
そこで我々は,タスク固有の特徴を分離しながら,共通特徴を効果的に抽出する手法を検討することが重要であると考えている。
これを踏まえ、同じネットワーク構造を持つ2分岐深層ネットワーク(KWSブランチとSVブランチ)を開発し、話者不変のキーワード表現とキーワード不変の話者表現がそれぞれ期待される場合に、KWSとSVのパフォーマンスを同時に押し上げる新しい分離特徴学習法を提案する。
実験はGoogle Speech Commands Dataset (GSCD)で行われている。
その結果、直交正則化は、ネットワークがそれぞれ KWS と SV で 1.31% と 1.87% の SOTA EER を達成するのに役立つことを示した。
関連論文リスト
- WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - Simultaneous or Sequential Training? How Speech Representations
Cooperate in a Multi-Task Self-Supervised Learning System [12.704529528199064]
最近の研究は、表現学習のための自己教師付き学習(SSL)と視覚接地音声(VGS)処理機構を組み合わせたものである。
マルチタスク学習システムとして,wav2vec 2.0ベースのSSLとトランスフォーマーベースのVGSの協調最適化について検討した。
論文 参考訳(メタデータ) (2023-06-05T15:35:19Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Multi-task Voice-Activated Framework using Self-supervised Learning [0.9864260997723973]
wav2vec 2.0のような自己教師型学習手法は、未ラベルおよび未転写音声データから音声表現を学習する上で有望な結果を示している。
本稿では,様々な音声アクティベートタスクに対して,事前学習したwav2vec 2.0モデルを適用するための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T19:28:57Z) - Multi-task Learning with Cross Attention for Keyword Spotting [8.103605110339519]
キーワードスポッティング(KWS)は音声アプリケーションにとって重要な手法であり、ユーザーはキーワード句を話すことでデバイスをアクティベートすることができる。
学習基準(音素認識)と目標課題(KWS)との間にはミスマッチがある
近年,KWS にマルチタスク学習を適用し,ASR と KWS のトレーニングデータを活用している。
論文 参考訳(メタデータ) (2021-07-15T22:38:16Z) - Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on
Spoken Language Understanding [101.24748444126982]
分解可能なタスクは複雑で、サブタスクの階層から構成される。
しかし、既存のベンチマークでは、通常は表面レベルのサブタスクのみの例が示される。
サブタスク固有のユーティリティ関数上の座標アセントを用いて、ロバストなテストセットを構築するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T02:53:59Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Multi-Task Network for Noise-Robust Keyword Spotting and Speaker
Verification using CTC-based Soft VAD and Global Query Attention [13.883985850789443]
キーワードスポッティング(KWS)と話者検証(SV)は独立に研究されているが、音響領域と話者領域は相補的である。
KWS と SV を同時に行うマルチタスクネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-08T05:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。