論文の概要: A Closer Look at Wav2Vec2 Embeddings for On-Device Single-Channel Speech
Enhancement
- arxiv url: http://arxiv.org/abs/2403.01369v1
- Date: Sun, 3 Mar 2024 02:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 23:10:46.703534
- Title: A Closer Look at Wav2Vec2 Embeddings for On-Device Single-Channel Speech
Enhancement
- Title(参考訳): オンデバイス単チャンネル音声強調のためのWav2Vec2埋め込みについて
- Authors: Ravi Shankar, Ke Tan, Buye Xu, Anurag Kumar
- Abstract要約: 自己教師付き学習モデルは、特定の音声タスクに非常に効果的であることが判明した。
本稿では,単一チャンネル音声強調におけるSSL表現の利用について検討する。
- 参考スコア(独自算出の注目度): 16.900731393703648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learned models have been found to be very effective for
certain speech tasks such as automatic speech recognition, speaker
identification, keyword spotting and others. While the features are undeniably
useful in speech recognition and associated tasks, their utility in speech
enhancement systems is yet to be firmly established, and perhaps not properly
understood. In this paper, we investigate the uses of SSL representations for
single-channel speech enhancement in challenging conditions and find that they
add very little value for the enhancement task. Our constraints are designed
around on-device real-time speech enhancement -- model is causal, the compute
footprint is small. Additionally, we focus on low SNR conditions where such
models struggle to provide good enhancement. In order to systematically examine
how SSL representations impact performance of such enhancement models, we
propose a variety of techniques to utilize these embeddings which include
different forms of knowledge-distillation and pre-training.
- Abstract(参考訳): 自己教師付き学習モデルは、自動音声認識、話者識別、キーワードスポッティングなど、特定の音声タスクに非常に有効であることが示されている。
これらの特徴は、音声認識や関連するタスクにおいて不確実に有用であるが、音声強調システムにおけるそれらの有用性はまだ確立されていない。
本稿では,課題条件下での単一チャネル音声強調のためのssl表現の利用について検討し,その拡張タスクにほとんど価値がないことを示す。
私たちの制約はデバイス上のリアルタイム音声強調を中心に設計されています -- モデルは因果関係であり、計算フットプリントは小さいのです。
さらに、そのようなモデルが優れた向上に苦しむ低SNR条件に焦点を当てる。
SSL表現がこれらの拡張モデルの性能にどのように影響するかを体系的に検討するために,知識蒸留と事前学習の異なる形態の埋め込みを利用するための様々な手法を提案する。
関連論文リスト
- Incorporating Talker Identity Aids With Improving Speech Recognition in Adversarial Environments [0.2916558661202724]
音声認識と話者識別を共同で行うトランスフォーマーモデルを開発した。
クリーンな条件下では,ジョイントモデルがWhisperと相容れない性能を示す。
以上の結果から,音声認識と音声表現の統合により,対向条件下ではより堅牢なモデルが得られる可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-07T18:39:59Z) - Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - Exploring the Benefits of Tokenization of Discrete Acoustic Units [4.591279524925446]
トークン化アルゴリズムは、基本語彙の単位をより大きな可変レート単位にマージする。
トークン化は、トレーニングや推論の速度だけでなく、パフォーマンスの観点からも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2024-06-08T18:34:28Z) - Self-supervised Neural Factor Analysis for Disentangling Utterance-level
Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。
この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。
我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文 参考訳(メタデータ) (2023-05-14T08:26:24Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。
また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。
その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文 参考訳(メタデータ) (2021-10-18T21:21:23Z) - Knowing What to Listen to: Early Attention for Deep Speech
Representation Learning [25.71206255965502]
本稿では,音声信号のためのファイングラファレンス・アーリーアテンション(FEFA)を提案する。
このモデルは、周波数ビンほど小さな情報アイテムに焦点を合わせることができる。
話者認識と音声感情認識の2つの一般的な課題について,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2020-09-03T17:40:27Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。