論文の概要: NOTSOFAR-1 Challenge: New Datasets, Baseline, and Tasks for Distant
Meeting Transcription
- arxiv url: http://arxiv.org/abs/2401.08887v1
- Date: Tue, 16 Jan 2024 23:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 17:23:30.109095
- Title: NOTSOFAR-1 Challenge: New Datasets, Baseline, and Tasks for Distant
Meeting Transcription
- Title(参考訳): NOTSOFAR-1 チャレンジ: 遠隔会議記録のための新しいデータセット、ベースライン、タスク
- Authors: Alon Vinnikov, Amir Ivry, Aviv Hurvitz, Igor Abramovski, Sharon Koubi,
Ilya Gurvich, Shai Pe`er, Xiong Xiao, Benjamin Martinez Elizalde, Naoyuki
Kanda, Xiaofei Wang, Shalev Shaer, Stav Yagev, Yossi Asher, Sunit
Sivasankaran, Yifan Gong, Min Tang, Huaming Wang, Eyal Krupka
- Abstract要約: 本研究では,Natural Office Talkers in Settings of Far-field Audio Recordings (NOTSOFAR-1'') Challenge with datasets and baseline system。
この課題は遠距離話者ダイアリゼーションと遠隔会議シナリオにおける自動音声認識(DASR)に焦点を当てる。
- 参考スコア(独自算出の注目度): 21.236634241186458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the first Natural Office Talkers in Settings of Far-field Audio
Recordings (``NOTSOFAR-1'') Challenge alongside datasets and baseline system.
The challenge focuses on distant speaker diarization and automatic speech
recognition (DASR) in far-field meeting scenarios, with single-channel and
known-geometry multi-channel tracks, and serves as a launch platform for two
new datasets: First, a benchmarking dataset of 315 meetings, averaging 6
minutes each, capturing a broad spectrum of real-world acoustic conditions and
conversational dynamics. It is recorded across 30 conference rooms, featuring
4-8 attendees and a total of 35 unique speakers. Second, a 1000-hour simulated
training dataset, synthesized with enhanced authenticity for real-world
generalization, incorporating 15,000 real acoustic transfer functions. The
tasks focus on single-device DASR, where multi-channel devices always share the
same known geometry. This is aligned with common setups in actual conference
rooms, and avoids technical complexities associated with multi-device tasks. It
also allows for the development of geometry-specific solutions. The NOTSOFAR-1
Challenge aims to advance research in the field of distant conversational
speech recognition, providing key resources to unlock the potential of
data-driven methods, which we believe are currently constrained by the absence
of comprehensive high-quality training and benchmarking datasets.
- Abstract(参考訳): 遠隔地音声録音(`notsofar-1'')の課題設定において、データセットとベースラインシステムと並行して、最初の自然オフィストーキーを導入する。
この課題は,単一チャネルと既知のジオメトリのマルチチャネルトラックを備えた遠距離話者ダイアリゼーションとDASR(Automatic Speech Recognition)による,遠距離話者ダイアリゼーションと自動音声認識(DASR)に焦点を当て,2つの新しいデータセットのローンチプラットフォームとして機能する。
30の会議室で録音され、4-8人の参加者と35人のユニークなスピーカーが参加している。
第二に、1000時間のシミュレートトレーニングデータセットを合成し、実世界の一般化のための信頼性を高め、15,000の実際の音響伝達機能を組み込んだ。
タスクは、マルチチャネルデバイスが常に同じ既知の幾何学を共有する単一デバイスDASRにフォーカスする。
これは実際の会議室で一般的な設定と一致し、マルチデバイスタスクに関連する技術的な複雑さを避ける。
また、幾何学的特有な解の開発も可能である。
NOTSOFAR-1 Challengeは、遠隔会話音声認識の分野での研究を進め、データ駆動方式の可能性を解き放つための重要なリソースを提供することを目的としている。
関連論文リスト
- LibriheavyMix: A 20,000-Hour Dataset for Single-Channel Reverberant Multi-Talker Speech Separation, ASR and Speaker Diarization [31.01716151301142]
本稿では、音声分離、音声認識、話者ダイアリゼーションの研究を進めるために、大規模遠距離重畳音声データセットを提案する。
このデータセットは、マルチストーカー、リバーラント環境において、Who氏の“What and When’’”を復号するための重要なリソースである。
論文 参考訳(メタデータ) (2024-09-01T19:23:08Z) - The NeurIPS 2023 Machine Learning for Audio Workshop: Affective Audio Benchmarks and Novel Data [28.23517306589778]
NeurIPS 2023 Machine Learning for Audio Workshopは、さまざまなオーディオドメインから機械学習(ML)の専門家を集めている。
音声感情認識から音声イベント検出まで、音声駆動MLの貴重なタスクはいくつかあるが、他のML領域と比較して、コミュニティは希少である。
高品質なデータ収集は時間がかかり費用がかかるため、学術グループがしばしば最先端の戦略をより大きな、より一般化可能なデータセットに適用することは困難である。
論文 参考訳(メタデータ) (2024-03-21T00:13:59Z) - The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in
CNVSRC 2023 [67.11294606070278]
本稿では,第1回中国連続視覚音声認識チャレンジ(CNVSRC)2023において,NPU-ASLP-LiAuto(Team 237)が導入した視覚音声認識システムについて述べる。
データ処理に関しては,ベースライン1からリップモーション抽出器を利用してマルチスケール映像データを生成する。
トレーニング中に、速度摂動、ランダム回転、水平反転、色変換を含む様々な拡張技術が適用される。
論文 参考訳(メタデータ) (2024-01-07T14:20:52Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple
Devices in Diverse Scenarios [61.74042680711718]
第7回CHiMEチャレンジにおいて,CHiME-7 遠隔 ASR (DASR) タスクを紹介した。
このタスクは、複数の、おそらくは異種な記録装置を備えた遠距離フィールド設定での共同ASRとダイアリゼーションを含む。
目的は、参加者が異なる配列のジオメトリをまたいで一般化できる単一のシステムを考案することである。
論文 参考訳(メタデータ) (2023-06-23T18:49:20Z) - ConfLab: A Rich Multimodal Multisensor Dataset of Free-Standing Social
Interactions In-the-Wild [10.686716372324096]
本稿では,マルチモーダル・マルチセンサ・データ収集のための新たな概念の創発について述べる。
ConfLabには、実生活のプロフェッショナルネットワーキングイベントにおいて49人の忠実度の高いデータが含まれている。
論文 参考訳(メタデータ) (2022-05-10T21:30:10Z) - Training speaker recognition systems with limited data [2.3148470932285665]
この研究は、現代の研究に比べてデータセットサイズがはるかに小さい話者認識のためのニューラルネットワークのトレーニングを検討する。
一般的なVoxCeleb2データセットの3つのサブセットを提案することで、データの量を人工的に制限する。
トレーニングデータに制限がある場合,wav2vec2の自己教師付き事前訓練重量が有意に向上することを示す。
論文 参考訳(メタデータ) (2022-03-28T12:41:41Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Large-Scale Pre-Training of End-to-End Multi-Talker ASR for Meeting
Transcription with Single Distant Microphone [43.77139614544301]
単一の遠距離マイクロホン(SDM)で重なり合った音声を含む会議の翻訳は、自動音声認識(ASR)の最も困難な問題の1つです。
本稿では,SOT(シリアライズ・アウトプット・トレーニング)ベースのマルチストーカーASRを事前に訓練する2段階のアプローチを広く検討する。
AMI-SDMトレーニングデータの70時間の微調整により,SOT ASRモデルはAMI-SDM評価セットに対して21.2%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-03-31T02:43:32Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。