論文の概要: Speech Enhancement with Zero-Shot Model Selection
- arxiv url: http://arxiv.org/abs/2012.09359v1
- Date: Thu, 17 Dec 2020 02:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 07:12:06.424989
- Title: Speech Enhancement with Zero-Shot Model Selection
- Title(参考訳): ゼロショットモデル選択による音声強調
- Authors: Ryandhimas E. Zezario, Chiou-Shann Fuh, Hsin-Min Wang, Yu Tsao
- Abstract要約: ゼロショットモデル選択(ZMOS)手法を提案し,SE性能の一般化を促進する。
提案手法はオフラインとオンラインの2つのフェーズで実現されている。
実験結果から,ZMOS手法は,可視型と可視型の両方で性能が向上することを確認した。
- 参考スコア(独自算出の注目度): 26.945047132110545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research on speech enhancement (SE) has seen the emergence of deep
learning-based methods. It is still a challenging task to determine effective
ways to increase the generalizability of SE under diverse test conditions. In
this paper, we combine zero-shot learning and ensemble learning to propose a
zero-shot model selection (ZMOS) approach to increase the generalization of SE
performance. The proposed approach is realized in two phases, namely offline
and online phases. The offline phase clusters the entire set of training data
into multiple subsets, and trains a specialized SE model (termed component SE
model) with each subset. The online phase selects the most suitable component
SE model to carry out enhancement. Two selection strategies are developed:
selection based on quality score (QS) and selection based on quality embedding
(QE). Both QS and QE are obtained by a Quality-Net, a non-intrusive quality
assessment network. In the offline phase, the QS or QE of a train-ing utterance
is used to group the training data into clusters. In the online phase, the QS
or QE of the test utterance is used to identify the appropriate component SE
model to perform enhancement on the test utterance. Experimental results have
confirmed that the proposed ZMOS approach can achieve better performance in
both seen and unseen noise types compared to the baseline systems, which
indicates the effectiveness of the proposed approach to provide robust SE
performance.
- Abstract(参考訳): 音声強調(SE)に関する最近の研究は、深層学習に基づく手法の出現を目にしている。
多様なテスト条件下でSEの一般化性を高める効果的な方法を決定することは依然として難しい課題である。
本稿では,ゼロショット学習とアンサンブル学習を組み合わせることで,se性能の一般化を促進するためのゼロショットモデル選択(zmos)手法を提案する。
提案手法はオフラインとオンラインの2つのフェーズで実現されている。
オフラインフェーズでは、トレーニングデータのセット全体を複数のサブセットにクラスタし、各サブセットで専用のseモデル(コンポーネントseモデルと呼ばれる)をトレーニングする。
オンラインフェーズは、拡張を行うのに最も適したコンポーネントSEモデルを選択する。
品質スコア(QS)に基づく選択と品質埋め込み(QE)に基づく選択の2つの選択戦略が開発されている。
qsとqeはいずれも、非侵入的品質評価ネットワークであるquality-netによって得られる。
オフラインフェーズでは、トレーニングデータをクラスタにグループ化するために、トレーニング発話のqsまたはqeを使用する。
オンラインフェーズでは、テスト発話のQSまたはQEを使用して、適切なコンポーネントSEモデルを特定し、テスト発話の強化を行う。
実験結果から,提案手法の有効性を示唆するベースラインシステムと比較して,zmos法が観測されたノイズタイプと未検出ノイズタイプの両方において,より優れた性能が得られることを確認した。
関連論文リスト
- Hit the Sweet Spot! Span-Level Ensemble for Large Language Models [8.34562564266839]
本研究では,リアルタイム調整の必要性と正確なアンサンブル決定に必要な情報とを効果的にバランスさせるスパンレベルアンサンブル手法であるSweetSpanを提案する。
まず、各候補モデルを独立して共有プレフィックスに基づいて候補スパンを生成する。
第二に、難易度スコアを計算して、候補モデル間の相互評価を容易にし、不誠実なスコアを抽出してロバストなスパン選択を実現する。
論文 参考訳(メタデータ) (2024-09-27T09:41:29Z) - SCAR: Efficient Instruction-Tuning for Large Language Models via Style Consistency-Aware Response Ranking [56.93151679231602]
本研究は、応答における2つの重要なスタイル的要素、すなわち言語形式と意味的前提を同定する。
これに触発されて、スタイル一貫性対応対応ランキング(SCAR)を導入する。
SCARは、そのレスポンススタイリスティックな一貫性に基づいて、トレーニングセット内の命令-レスポンスペアを優先順位付けする。
論文 参考訳(メタデータ) (2024-06-16T10:10:37Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - Synthetic Sample Selection for Generalized Zero-Shot Learning [4.264192013842096]
Generalized Zero-Shot Learning (GZSL) はコンピュータビジョンにおいて重要な研究領域となっている。
本稿では,強化学習を用いた合成特徴選択のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-06T03:22:43Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - Counterfactual Samples Synthesizing and Training for Robust Visual
Question Answering [59.20766562530209]
VQAモデルは、トレーニングセットにおける表面的な言語的相関をキャプチャする傾向にある。
近年のVQA研究は、ターゲットとなるVQAモデルのトレーニングを規則化する補助的な質問専用モデルを導入している。
本稿では,新しいモデル非依存型対実サンプル合成訓練(CSST)戦略を提案する。
論文 参考訳(メタデータ) (2021-10-03T14:31:46Z) - Knowledge Distillation and Data Selection for Semi-Supervised Learning
in CTC Acoustic Models [9.496916045581736]
半教師付き学習 (SSL) は, 音声認識システムの精度を向上させるために, ラベルのないデータを活用することを目的とした研究の活発な領域である。
本研究の目的は, 不正データのプールからサンプルを選択する際に, 適切な基準が重要であることを確かめることである。
我々は、この疑問に答え、異なるサンプリング戦略の効果を定量化するために、異なるデータ選択方法の実証的研究を行う。
論文 参考訳(メタデータ) (2020-08-10T07:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。