論文の概要: Unsupervised Domain Adaptation in Speech Recognition using Phonetic
Features
- arxiv url: http://arxiv.org/abs/2108.02850v1
- Date: Wed, 4 Aug 2021 06:22:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-09 14:21:13.444969
- Title: Unsupervised Domain Adaptation in Speech Recognition using Phonetic
Features
- Title(参考訳): 音声特徴量を用いた音声認識における教師なし領域適応
- Authors: Rupam Ojha, C Chandra Sekhar
- Abstract要約: 音声特徴量を用いた音声認識において、教師なし性に基づくドメイン適応を行う手法を提案する。
TIMITデータセット上で実験を行い,提案手法を用いて音素誤り率を著しく低減した。
- 参考スコア(独自算出の注目度): 6.872447420442981
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic speech recognition is a difficult problem in pattern recognition
because several sources of variability exist in the speech input like the
channel variations, the input might be clean or noisy, the speakers may have
different accent and variations in the gender, etc. As a result, domain
adaptation is important in speech recognition where we train the model for a
particular source domain and test it on a different target domain. In this
paper, we propose a technique to perform unsupervised gender-based domain
adaptation in speech recognition using phonetic features. The experiments are
performed on the TIMIT dataset and there is a considerable decrease in the
phoneme error rate using the proposed approach.
- Abstract(参考訳): 自動音声認識は、チャネル変動のように音声入力にいくつかの可変性源が存在するため、パターン認識において難しい問題であり、入力はクリーンかノイズか、話者のアクセントや性別のばらつきが異なる可能性がある。
結果として、特定のソースドメインのモデルをトレーニングし、別のターゲットドメインでテストする音声認識では、ドメイン適応が重要である。
本稿では,音声特徴量を用いた音声認識において,教師なし性に基づくドメイン適応を実現する手法を提案する。
実験はTIMITデータセット上で行われ、提案手法を用いて音素誤り率を大幅に低下させる。
関連論文リスト
- Anonymising Elderly and Pathological Speech: Voice Conversion Using DDSP and Query-by-Example [4.42160195007899]
音声の匿名化は、言語内容を保持しながら、音声中の個人識別子を変更することによって話者のアイデンティティを保護することを目的としている。
現在の方法では、高齢者や病的音声領域で見られる韻律や独特の音声パターンを維持できない。
可変ディジタル信号処理とクエリ・バイ・サンプルを用いた音声変換方式(DDSP-QbE)を提案する。
論文 参考訳(メタデータ) (2024-10-20T20:40:56Z) - Damage Control During Domain Adaptation for Transducer Based Automatic
Speech Recognition [13.029537136528521]
新しいドメインへのモデル適応の潜在的な欠点は、元のドメインでのワードエラー率が著しく低下している大惨な忘れ事である。
本稿では,音声認識モデルを新しい領域に同時に適用したい場合について述べる。
本稿では,Transducerエンコーダの限られたトレーニング戦略や正規化アダプタモジュール,予測,結合器ネットワークなどの手法を提案する。
論文 参考訳(メタデータ) (2022-10-06T23:38:50Z) - Cross-domain Voice Activity Detection with Self-Supervised
Representations [9.02236667251654]
音声活動検出(Voice Activity Detection, VAD)は、音声信号の音声区間を検出することを目的とする。
現在の最先端の手法は、音響に直接含まれている特徴を活用するニューラルネットワークのトレーニングに重点を置いている。
自己監視学習(SSL)に基づく表現は,異なる領域に適応可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T14:53:44Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z) - Improving speaker de-identification with functional data analysis of f0
trajectories [10.809893662563926]
フォーマント修正は、訓練データを必要としない話者識別のための、シンプルで効果的な方法である。
本研究は, 簡易な定式化シフトに加えて, 関数データ解析に基づくf0トラジェクトリを操作する新しい話者識別手法を提案する。
提案手法は,音素的に制御可能なピッチ特性を最適に識別し,フォルマントに基づく話者識別を最大25%改善する。
論文 参考訳(メタデータ) (2022-03-31T01:34:15Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Audio-Adaptive Activity Recognition Across Video Domains [112.46638682143065]
ドメイン間のばらつきが少なく、どのアクティビティが起こっていないかを確実に示すことができるので、ドメイン適応のためにアクティビティサウンドを活用します。
視覚特徴表現を識別的に調整するオーディオ適応型エンコーダと学習方法を提案する。
また、アクターシフトという新たなタスクを対応するオーディオ・ビジュアル・データセットで導入し、アクターの出現が劇的に変化する状況において、我々の手法に挑戦する。
論文 参考訳(メタデータ) (2022-03-27T08:15:20Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - DEAAN: Disentangled Embedding and Adversarial Adaptation Network for
Robust Speaker Representation Learning [69.70594547377283]
話者関連およびドメイン固有の特徴を解き放つための新しいフレームワークを提案する。
我々のフレームワークは、より話者差別的でドメイン不変な話者表現を効果的に生成できる。
論文 参考訳(メタデータ) (2020-12-12T19:46:56Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。