論文の概要: The Effect of Spoken Language on Speech Enhancement using
Self-Supervised Speech Representation Loss Functions
- arxiv url: http://arxiv.org/abs/2307.14502v2
- Date: Fri, 20 Oct 2023 08:55:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 03:22:29.501662
- Title: The Effect of Spoken Language on Speech Enhancement using
Self-Supervised Speech Representation Loss Functions
- Title(参考訳): 自己教師付き音声表現損失関数を用いた音声強調における音声言語の効果
- Authors: George Close, Thomas Hain and Stefan Goetze
- Abstract要約: 本研究は、自己教師型表現の訓練に用いられる音声の言語と、SEシステムの訓練に用いられる音声との関係を考察する。
SEシステムのトレーニングに使用するノイズの多いデータの言語を正確に共有する自己教師付き表現を組み込んだ損失関数を用いてトレーニングされた強化モデルは、正確に一致しないものよりも優れた性能を示す。
自己教師型表現の訓練言語は,強化性能に小さな影響を及ぼすことが明らかとなった。
- 参考スコア(独自算出の注目度): 21.237026538221404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work in the field of speech enhancement (SE) has involved the use of
self-supervised speech representations (SSSRs) as feature transformations in
loss functions. However, in prior work, very little attention has been paid to
the relationship between the language of the audio used to train the
self-supervised representation and that used to train the SE system.
Enhancement models trained using a loss function which incorporates a
self-supervised representation that shares exactly the language of the noisy
data used to train the SE system show better performance than those which do
not match exactly. This may lead to enhancement systems which are language
specific and as such do not generalise well to unseen languages, unlike models
trained using traditional spectrogram or time domain loss functions. In this
work, SE models are trained and tested on a number of different languages, with
self-supervised representations which themselves are trained using different
language combinations and with differing network structures as loss function
representations. These models are then tested across unseen languages and their
performances are analysed. It is found that the training language of the
self-supervised representation appears to have a minor effect on enhancement
performance, the amount of training data of a particular language, however,
greatly affects performance.
- Abstract(参考訳): 音声強調(SE)の分野での最近の研究は、損失関数の特徴変換として自己教師付き音声表現(SSSR)の使用に関わっている。
しかし、先行研究では、自己監督表現の訓練に用いられる音声の言語とSEシステムの訓練に用いられる音声との関係にはほとんど注意が払われていない。
SEシステムのトレーニングに使用するノイズの多いデータの言語を正確に共有する自己教師付き表現を組み込んだ損失関数を用いてトレーニングされた強化モデルは、正確に一致しないものよりも優れた性能を示す。
これは、従来のスペクトログラムや時間領域損失関数を用いて訓練されたモデルとは異なり、言語固有の拡張システムとなり、見知らぬ言語にうまく一般化しない。
この研究では、SEモデルは様々な言語で訓練され、テストされ、それぞれが異なる言語の組み合わせを使って訓練された自己教師付き表現と、損失関数表現として異なるネットワーク構造を持つ。
これらのモデルは未知の言語でテストされ、パフォーマンスが分析される。
自己教師型表現の訓練言語は、特定の言語の訓練データの量である強化性能に小さな影響を与えているように見えるが、性能に大きな影響を及ぼす。
関連論文リスト
- Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - Perceive and predict: self-supervised speech representation based loss
functions for speech enhancement [23.974815078687445]
クリーンな音声とノイズの多い音声の特徴符号化の距離は、心理音響的動機付けによる音声品質と聞きやすさの尺度と強く相関している。
損失関数としてこの距離を用いた実験を行い、STFTスペクトル距離に基づく損失よりも性能を向上した。
論文 参考訳(メタデータ) (2023-01-11T10:20:56Z) - Supervised Acoustic Embeddings And Their Transferability Across
Languages [2.28438857884398]
音声認識においては、話者変動や雑音など無関係な要因を排除しつつ、入力信号の音声内容のモデル化が不可欠である。
自己教師付き事前学習は、教師付き音声認識と教師なし音声認識の両方を改善する方法として提案されている。
論文 参考訳(メタデータ) (2023-01-03T09:37:24Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Pre-training Universal Language Representation [46.51685959045527]
この研究は普遍言語表現学習、すなわち、一様ベクトル空間に非常に多様な長さを持つ言語単位やテキストの異なるレベルの埋め込みを導入している。
我々は、よく設計された事前学習スキームが、効果的に普遍的な言語表現をもたらすことを実証的に検証する。
論文 参考訳(メタデータ) (2021-05-30T09:29:01Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。