論文の概要: The Effect of Spoken Language on Speech Enhancement using
Self-Supervised Speech Representation Loss Functions
- arxiv url: http://arxiv.org/abs/2307.14502v1
- Date: Thu, 27 Jul 2023 09:20:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 16:39:32.027814
- Title: The Effect of Spoken Language on Speech Enhancement using
Self-Supervised Speech Representation Loss Functions
- Title(参考訳): 自己教師付き音声表現損失関数を用いた音声強調における音声言語の効果
- Authors: George Close, Thomas Hain and Stefan Goetze
- Abstract要約: 本研究は、自己教師型表現の訓練に用いられる音声の言語と、SEシステムの訓練に用いられる音声との関係を考察する。
SEシステムのトレーニングに使用するノイズの多いデータの言語を正確に共有する自己教師付き表現を組み込んだ損失関数を用いてトレーニングされた強化モデルは、正確に一致しないものよりも優れた性能を示す。
自己教師型表現の訓練言語は,強化性能に小さな影響を及ぼすことが明らかとなった。
- 参考スコア(独自算出の注目度): 26.94528951545861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work in the field of speech enhancement (SE) has involved the use of
self-supervised speech representations (SSSRs) as feature transformations in
loss functions. However, in prior work, very little attention has been paid to
the relationship between the language of the audio used to train the
self-supervised representation and that used to train the SE system.
Enhancement models trained using a loss function which incorporates a
self-supervised representation that shares exactly the language of the noisy
data used to train the SE system show better performance than those which do
not match exactly. This may lead to enhancement systems which are language
specific and as such do not generalise well to unseen languages, unlike models
trained using traditional spectrogram or time domain loss functions. In this
work, SE models are trained and tested on a number of different languages, with
self-supervised representations which themselves are trained using different
language combinations and with differing network structures as loss function
representations. These models are then tested across unseen languages and their
performances are analysed. It is found that the training language of the
self-supervised representation appears to have a minor effect on enhancement
performance, the amount of training data of a particular language, however,
greatly affects performance.
- Abstract(参考訳): 音声強調(SE)の分野での最近の研究は、損失関数の特徴変換として自己教師付き音声表現(SSSR)の使用に関わっている。
しかし、先行研究では、自己監督表現の訓練に用いられる音声の言語とSEシステムの訓練に用いられる音声との関係にはほとんど注意が払われていない。
SEシステムのトレーニングに使用するノイズの多いデータの言語を正確に共有する自己教師付き表現を組み込んだ損失関数を用いてトレーニングされた強化モデルは、正確に一致しないものよりも優れた性能を示す。
これは、従来のスペクトログラムや時間領域損失関数を用いて訓練されたモデルとは異なり、言語固有の拡張システムとなり、見知らぬ言語にうまく一般化しない。
この研究では、SEモデルは様々な言語で訓練され、テストされ、それぞれが異なる言語の組み合わせを使って訓練された自己教師付き表現と、損失関数表現として異なるネットワーク構造を持つ。
これらのモデルは未知の言語でテストされ、パフォーマンスが分析される。
自己教師型表現の訓練言語は、特定の言語の訓練データの量である強化性能に小さな影響を与えているように見えるが、性能に大きな影響を及ぼす。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Exploring the Benefits of Tokenization of Discrete Acoustic Units [4.591279524925446]
トークン化アルゴリズムは、基本語彙の単位をより大きな可変レート単位にマージする。
トークン化は、トレーニングや推論の速度だけでなく、パフォーマンスの観点からも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2024-06-08T18:34:28Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - Perceive and predict: self-supervised speech representation based loss
functions for speech enhancement [23.974815078687445]
クリーンな音声とノイズの多い音声の特徴符号化の距離は、心理音響的動機付けによる音声品質と聞きやすさの尺度と強く相関している。
損失関数としてこの距離を用いた実験を行い、STFTスペクトル距離に基づく損失よりも性能を向上した。
論文 参考訳(メタデータ) (2023-01-11T10:20:56Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Pre-training Universal Language Representation [46.51685959045527]
この研究は普遍言語表現学習、すなわち、一様ベクトル空間に非常に多様な長さを持つ言語単位やテキストの異なるレベルの埋め込みを導入している。
我々は、よく設計された事前学習スキームが、効果的に普遍的な言語表現をもたらすことを実証的に検証する。
論文 参考訳(メタデータ) (2021-05-30T09:29:01Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。