論文の概要: A Semi-Automatic Approach to Create Large Gender- and Age-Balanced Speaker Corpora: Usefulness of Speaker Diarization & Identification
- arxiv url: http://arxiv.org/abs/2404.17552v1
- Date: Fri, 26 Apr 2024 17:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 12:25:41.806610
- Title: A Semi-Automatic Approach to Create Large Gender- and Age-Balanced Speaker Corpora: Usefulness of Speaker Diarization & Identification
- Title(参考訳): ジェンダーと年齢別話者コーパス作成のための半自動的アプローチ:話者ダイアリゼーションと識別の有用性
- Authors: Rémi Uro, David Doukhan, Albert Rilliard, Laëtitia Larcher, Anissa-Claire Adgharouamane, Marie Tahon, Antoine Laurent,
- Abstract要約: コーパスはフランス国立オーディオヴィジュアル研究所で選ばれ、1つのカテゴリーにつき少なくとも30人の話者を得た。
自動パイプラインを用いて音声文書から音声抜粋を抽出した。
パイプラインは非常に効果的で、手作業の処理を10倍に削減した。
- 参考スコア(独自算出の注目度): 5.94055495460745
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a semi-automatic approach to create a diachronic corpus of voices balanced for speaker's age, gender, and recording period, according to 32 categories (2 genders, 4 age ranges and 4 recording periods). Corpora were selected at French National Institute of Audiovisual (INA) to obtain at least 30 speakers per category (a total of 960 speakers; only 874 have be found yet). For each speaker, speech excerpts were extracted from audiovisual documents using an automatic pipeline consisting of speech detection, background music and overlapped speech removal and speaker diarization, used to present clean speaker segments to human annotators identifying target speakers. This pipeline proved highly effective, cutting down manual processing by a factor of ten. Evaluation of the quality of the automatic processing and of the final output is provided. It shows the automatic processing compare to up-to-date process, and that the output provides high quality speech for most of the selected excerpts. This method shows promise for creating large corpora of known target speakers.
- Abstract(参考訳): 本稿では,32カテゴリー(性別2つ,年齢4つ,録音期間4つ)に応じて,話者の年齢,性別,録音期間のバランスを保ったダイアクロニックコーパスを作成するための半自動アプローチを提案する。
コーパスはフランス国立オーディオヴィジュアル研究所 (INA) に選ばれ、少なくとも30の話者(計960人の話者がいた。
各話者に対して, 音声検出, 背景音楽, 重なり合う音声除去, 話者ダイアリゼーションからなる自動パイプラインを用いて, 対象話者を特定するアノテータにクリーンな話者セグメントを提示する。
このパイプラインは非常に効果的で、手作業の処理を10倍に削減した。
自動処理の品質と最終出力の評価を行う。
自動処理を最新の処理と比較し,抽出した抽出語の大部分に対して高品質な音声を提供する。
この方法は、既知のターゲット話者の大きなコーパスを作成することを約束する。
関連論文リスト
- Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - Artificial Neural Networks to Recognize Speakers Division from Continuous Bengali Speech [0.5330251011543498]
我々は,男性633人,女性633人を対象に,45時間以上の音声データを用いた。
私たちは85.44%の精度を記録しました。
論文 参考訳(メタデータ) (2024-04-18T10:17:20Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Royalflush Speaker Diarization System for ICASSP 2022 Multi-channel
Multi-party Meeting Transcription Challenge [4.022057598291766]
マルチチャンネル多人数会議記述課題へのRoyalflush話者ダイアリゼーションシステムの適用
システムは、音声強調、重複音声検出、話者埋め込み抽出、話者クラスタリング、音声分離、システム融合を含む。
論文 参考訳(メタデータ) (2022-02-10T03:35:05Z) - Speaker Generation [16.035697779803627]
本研究は,非存在感音声における音声合成の課題について考察する。
本稿では,この課題に対して競争力のあるシステムであるTacoSpawnを紹介する。
論文 参考訳(メタデータ) (2021-11-07T22:31:41Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Identify Speakers in Cocktail Parties with End-to-End Attention [48.96655134462949]
本稿では,音声ソース抽出と話者識別を統合したエンドツーエンドシステムを提案する。
本稿では,チャネル次元に沿って話者予測を最大にすることで,これら2つの部分を協調的に最適化する方法を提案する。
エンドツーエンドのトレーニングは、99.9%の精度と93.9%の精度で2話者放送音声の1つの話者を認識するシステムである。
論文 参考訳(メタデータ) (2020-05-22T22:15:16Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。