論文の概要: TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models
- arxiv url: http://arxiv.org/abs/2505.06660v1
- Date: Sat, 10 May 2025 14:23:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.971057
- Title: TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models
- Title(参考訳): TS-SUPERB:音声自己監督学習モデルのためのターゲット音声処理ベンチマーク
- Authors: Junyi Peng, Takanori Ashihara, Marc Delcroix, Tsubasa Ochiai, Oldrich Plchot, Shoko Araki, Jan Černocký,
- Abstract要約: 対象話者音声処理ユニバーサルパフォーマンスベンチマーク(TS-SUPERB)を導入する。
このベンチマークには、広く認識されている4つのターゲットスピーカー処理タスクが含まれている。
入力音声から抽出した話者埋め込みは、下流モデルの条件付けの手がかりとして用いられる。
- 参考スコア(独自算出の注目度): 43.761503775097104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) models have significantly advanced speech processing tasks, and several benchmarks have been proposed to validate their effectiveness. However, previous benchmarks have primarily focused on single-speaker scenarios, with less exploration of target-speaker tasks in noisy, multi-talker conditions -- a more challenging yet practical case. In this paper, we introduce the Target-Speaker Speech Processing Universal Performance Benchmark (TS-SUPERB), which includes four widely recognized target-speaker processing tasks that require identifying the target speaker and extracting information from the speech mixture. In our benchmark, the speaker embedding extracted from enrollment speech is used as a clue to condition downstream models. The benchmark result reveals the importance of evaluating SSL models in target speaker scenarios, demonstrating that performance cannot be easily inferred from related single-speaker tasks. Moreover, by using a unified SSL-based target speech encoder, consisting of a speaker encoder and an extractor module, we also investigate joint optimization across TS tasks to leverage mutual information and demonstrate its effectiveness.
- Abstract(参考訳): 自己教師付き学習(SSL)モデルは、かなり高度な音声処理タスクを持ち、その有効性を検証するためにいくつかのベンチマークが提案されている。
しかし、以前のベンチマークは主に単一話者シナリオに焦点を当てており、ノイズの多いマルチストーカー条件下でのターゲット話者タスクの探索は少ない。
本稿では,ターゲット話者の識別と混合音声からの情報抽出を要求される4つの広く認識されているターゲット話者処理タスクを含む,ターゲット話者処理ユニバーサルパフォーマンスベンチマーク(TS-SUPERB)を提案する。
本ベンチマークでは,入力音声から抽出した話者埋め込みを,下流モデルの条件付けの手がかりとして用いた。
ベンチマークの結果は、ターゲット話者シナリオにおけるSSLモデルの評価の重要性を明らかにし、パフォーマンスが関連する単一話者タスクから容易に推測できないことを示した。
さらに、話者エンコーダと抽出モジュールからなる統合SSLベースのターゲット音声エンコーダを用いて、TSタスク間の共同最適化を行い、相互情報を活用し、その効果を実証する。
関連論文リスト
- Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。
TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。
分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-15T03:58:13Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。