論文の概要: LibriWASN: A Data Set for Meeting Separation, Diarization, and
Recognition with Asynchronous Recording Devices
- arxiv url: http://arxiv.org/abs/2308.10682v1
- Date: Mon, 21 Aug 2023 12:33:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 13:38:57.754445
- Title: LibriWASN: A Data Set for Meeting Separation, Diarization, and
Recognition with Asynchronous Recording Devices
- Title(参考訳): LibriWASN: 非同期記録デバイスによる会議分離,ダイアリゼーション,認識のためのデータセット
- Authors: Joerg Schmalenstroeer, Tobias Gburrek, Reinhold Haeb-Umbach
- Abstract要約: We present LibriWASN, a data set that design along the LibriCSS meeting recognition data set。
9つの異なるデバイス、5つのスマートフォンに1つの録音チャンネルと4つのマイクアレイがあり、合計29のチャンネルが記録されている。
データは音声の重複率が異なるサブセットで構成される。
- 参考スコア(独自算出の注目度): 18.485147778531985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LibriWASN, a data set whose design follows closely the LibriCSS
meeting recognition data set, with the marked difference that the data is
recorded with devices that are randomly positioned on a meeting table and whose
sampling clocks are not synchronized. Nine different devices, five smartphones
with a single recording channel and four microphone arrays, are used to record
a total of 29 channels. Other than that, the data set follows closely the
LibriCSS design: the same LibriSpeech sentences are played back from eight
loudspeakers arranged around a meeting table and the data is organized in
subsets with different percentages of speech overlap. LibriWASN is meant as a
test set for clock synchronization algorithms, meeting separation, diarization
and transcription systems on ad-hoc wireless acoustic sensor networks. Due to
its similarity to LibriCSS, meeting transcription systems developed for the
former can readily be tested on LibriWASN. The data set is recorded in two
different rooms and is complemented with ground-truth diarization information
of who speaks when.
- Abstract(参考訳): We present LibriWASN, a data set that design along the LibriCSS meeting recognition data set, which the marked difference that data are recorded with randomly positioned on a meeting table and that sample clocks not synchronized。
9つの異なるデバイス、5つのスマートフォンに1つの録音チャンネルと4つのマイクアレイがあり、合計29のチャンネルが記録されている。
それ以外は、データセットは、LibriCSS設計に密接に従う: 同じLibriSpeech文は、会議テーブルの周りに配置された8つのスピーカーから再生され、データは、異なる音声重複率のサブセットにまとめられる。
LibriWASNは、アドホックな無線音響センサネットワーク上でのクロック同期アルゴリズム、ミーティング分離、ダイアリゼーション、および書き起こしシステムのテストセットとして意図されている。
LibriCSSと類似しているため、LibriWASN上では、前者向けに開発された会議転写システムが容易にテストできる。
データセットは2つの異なる部屋に記録され、誰がいつ話すかの接地ダイアリゼーション情報で補完される。
関連論文リスト
- ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - Sparse in Space and Time: Audio-visual Synchronisation with Trainable
Selectors [103.21152156339484]
本研究の目的は,一般映像の「野生」音声・視覚同期である。
我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。
音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
論文 参考訳(メタデータ) (2022-10-13T14:25:37Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z) - Word Order Does Not Matter For Speech Recognition [35.96275156733138]
全ての出力フレームの分布を集約する単語レベル音響モデルを訓練する。
次に、コネクショニストの時間的分類損失を用いて文字ベース音響モデルを訓練する。
本システムでは,LibriSpeechの2.4%/5.3%をテストクリーン/テスト-その他のサブセットで実現している。
論文 参考訳(メタデータ) (2021-10-12T13:35:01Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - End-to-End Speaker-Attributed ASR with Transformer [41.7739129773237]
本稿では,エンドツーエンド話者属性自動音声認識システムを提案する。
単調なマルチトーカー音声に対する話者カウント、音声認識、話者識別を共同で行う。
論文 参考訳(メタデータ) (2021-04-05T19:54:15Z) - Continuous Speech Separation with Ad Hoc Microphone Arrays [35.87274524040486]
音声分離は複数話者音声認識に有効であることが示された。
本稿では,このアプローチを連続音声分離に拡張する。
単一話者セグメントにおける音声問題を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T13:01:08Z) - Utterance-Wise Meeting Transcription System Using Asynchronous
Distributed Microphones [27.07568513025875]
本稿では,非同期マイクロホンを用いた新しい音声書き起こしフレームワークを提案する。
音声同期、話者ダイアリゼーション、誘導音源分離を用いた発話音声強調、自動音声認識、重複低減で構成されている。
論文 参考訳(メタデータ) (2020-07-31T06:50:04Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。