論文の概要: Joint speech and overlap detection: a benchmark over multiple audio
setup and speech domains
- arxiv url: http://arxiv.org/abs/2307.13012v1
- Date: Mon, 24 Jul 2023 14:29:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 19:35:17.951733
- Title: Joint speech and overlap detection: a benchmark over multiple audio
setup and speech domains
- Title(参考訳): 共同音声と重複検出:複数の音声設定と音声領域のベンチマーク
- Authors: Martin Lebourdais (LIUM), Th\'eo Mariotte (LIUM, LAUM), Marie Tahon
(LIUM), Anthony Larcher (LIUM), Antoine Laurent (LIUM), Silvio Montresor
(LAUM), Sylvain Meignier (LIUM), Jean-Hugh Thomas (LAUM)
- Abstract要約: VADとOSDは多クラス分類モデルを用いて共同で訓練することができる。
本稿では,様々なVADモデルとOSDモデルの完全かつ新しいベンチマークを提案する。
我々の2/3クラスシステムは、時間的畳み込みネットワークと設定に適応した音声表現を組み合わせることで、最先端の結果より優れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice activity and overlapped speech detection (respectively VAD and OSD) are
key pre-processing tasks for speaker diarization. The final segmentation
performance highly relies on the robustness of these sub-tasks. Recent studies
have shown VAD and OSD can be trained jointly using a multi-class
classification model. However, these works are often restricted to a specific
speech domain, lacking information about the generalization capacities of the
systems. This paper proposes a complete and new benchmark of different VAD and
OSD models, on multiple audio setups (single/multi-channel) and speech domains
(e.g. media, meeting...). Our 2/3-class systems, which combine a Temporal
Convolutional Network with speech representations adapted to the setup,
outperform state-of-the-art results. We show that the joint training of these
two tasks offers similar performances in terms of F1-score to two dedicated VAD
and OSD systems while reducing the training cost. This unique architecture can
also be used for single and multichannel speech processing.
- Abstract(参考訳): 話者ダイアリゼーションにおける音声活動と重なり合う音声検出(VADとOSD)は重要な前処理タスクである。
最終的なセグメンテーション性能は、これらのサブタスクの堅牢性に大きく依存している。
近年の研究では、VADとOSDを多クラス分類モデルを用いて共同で訓練できることが示されている。
しかし、これらの作品はしばしば特定の音声領域に限定され、システムの一般化能力に関する情報を欠いている。
本稿では,複数のオーディオ設定(シングル/マルチチャネル)と音声領域(メディア,ミーティングなど)に基づいて,異なるVADモデルとOSDモデルの完全かつ新しいベンチマークを提案する。
我々の2/3クラスシステムは、時間的畳み込みネットワークと設定に適応した音声表現を組み合わせ、最先端の結果より優れている。
これら2つのタスクの共同トレーニングは、トレーニングコストを削減しつつ、F1スコアから2つの専用VADおよびOSDシステムに類似したパフォーマンスを提供することを示す。
このユニークなアーキテクチャは、シングルチャネルおよびマルチチャネル音声処理にも利用できる。
関連論文リスト
- Online speaker diarization of meetings guided by speech separation [0.0]
重複した音声は、話者ダイアリゼーションシステムに問題があることで知られている。
長時間録音のオンライン話者ダイアリゼーションに適した音声分離誘導ダイアリゼーション方式を提案する。
論文 参考訳(メタデータ) (2024-01-30T09:09:22Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Multi-microphone Automatic Speech Segmentation in Meetings Based on
Circular Harmonics Features [0.0]
円形高調波領域(CH-DOA)の方向推定に基づく新しい空間的特徴セットを提案する。
AMIミーティングコーパスの実験では、CH-DOAは非活性化マイクロホンの場合の堅牢さを保ちながらセグメンテーションを改善することができる。
論文 参考訳(メタデータ) (2023-06-07T09:09:00Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks [94.30385972442387]
本稿では,多種多様な音声分類タスクを実行できるプロンプトチューニングフレームワークであるSpeechPrompt v2を提案する。
実験の結果、SpeechPrompt v2は0.15M未満のトレーニング可能なパラメータを持つ以前の作業と同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-01T18:47:41Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。