論文の概要: Learning Invariant Representation and Risk Minimized for Unsupervised
Accent Domain Adaptation
- arxiv url: http://arxiv.org/abs/2210.08182v1
- Date: Sat, 15 Oct 2022 03:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 16:28:07.955481
- Title: Learning Invariant Representation and Risk Minimized for Unsupervised
Accent Domain Adaptation
- Title(参考訳): 教師なしアクセント領域適応のための学習不変表現とリスク最小化
- Authors: Chendong Zhao, Jianzong Wang, Xiaoyang Qu, Haoqian Wang, Jing Xiao
- Abstract要約: 音声の教師なし表現学習は,音声認識タスクにおける印象的なパフォーマンスを達成した。
本研究では,言語情報に対する表現を直接マッピングすることで,ドメイン不変表現の学習について検討する。
その結果,学習者は各音素の調音的特徴を捉えただけでなく,適応能力も向上し,アクセント付きベンチマークのベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 32.75866643254402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised representation learning for speech audios attained impressive
performances for speech recognition tasks, particularly when annotated speech
is limited. However, the unsupervised paradigm needs to be carefully designed
and little is known about what properties these representations acquire. There
is no guarantee that the model learns meaningful representations for valuable
information for recognition. Moreover, the adaptation ability of the learned
representations to other domains still needs to be estimated. In this work, we
explore learning domain-invariant representations via a direct mapping of
speech representations to their corresponding high-level linguistic
informations. Results prove that the learned latents not only capture the
articulatory feature of each phoneme but also enhance the adaptation ability,
outperforming the baseline largely on accented benchmarks.
- Abstract(参考訳): 音声音声に対する教師なし表現学習は、特に注釈付き音声が制限された場合、音声認識タスクにおいて印象的な性能を得た。
しかし、教師なしパラダイムは慎重に設計される必要があり、これらの表現が獲得する特性についてはほとんど知られていない。
モデルが認識に有用な情報に対して有意義な表現を学習する保証はない。
さらに、学習した表現の他の領域への適応能力を推定する必要がある。
本研究では,言語情報に対する表現を直接マッピングすることで,ドメイン不変表現の学習について検討する。
その結果,学習者は各音素の調音的特徴を捉えただけでなく,適応能力も向上し,アクセント付きベンチマークのベースラインよりも優れていた。
関連論文リスト
- A Closer Look at Wav2Vec2 Embeddings for On-Device Single-Channel Speech
Enhancement [16.900731393703648]
自己教師付き学習モデルは、特定の音声タスクに非常に効果的であることが判明した。
本稿では,単一チャンネル音声強調におけるSSL表現の利用について検討する。
論文 参考訳(メタデータ) (2024-03-03T02:05:17Z) - SememeASR: Boosting Performance of End-to-End Speech Recognition against
Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。
実験の結果,セム情報により音声認識の有効性が向上することが示された。
さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-04T08:35:05Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - Supervised Acoustic Embeddings And Their Transferability Across
Languages [2.28438857884398]
音声認識においては、話者変動や雑音など無関係な要因を排除しつつ、入力信号の音声内容のモデル化が不可欠である。
自己教師付き事前学習は、教師付き音声認識と教師なし音声認識の両方を改善する方法として提案されている。
論文 参考訳(メタデータ) (2023-01-03T09:37:24Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Towards End-to-end Unsupervised Speech Recognition [120.4915001021405]
我々は、すべてのオーディオサイドの事前処理を廃止し、アーキテクチャの改善により精度を向上させるwvuを紹介する。
さらに、モデル予測を入力に結びつける補助的な自己教師対象を導入する。
実験により、vvuimは概念的にシンプルでありながら、異なる言語にわたる教師なしの認識結果を向上することが示された。
論文 参考訳(メタデータ) (2022-04-05T21:22:38Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Learning De-identified Representations of Prosody from Raw Audio [7.025418443146435]
コントラッシブな自己教師付き信号を用いて生音声から不特定韻律表現を学習する手法を提案する。
我々は韻律の自然な構造を利用して音節情報を最小化し、韻律を話者表現から切り離す。
論文 参考訳(メタデータ) (2021-07-17T14:37:25Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。