論文の概要: CNVSRC 2023: The First Chinese Continuous Visual Speech Recognition Challenge
- arxiv url: http://arxiv.org/abs/2406.10313v1
- Date: Fri, 14 Jun 2024 12:49:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:01:54.718178
- Title: CNVSRC 2023: The First Chinese Continuous Visual Speech Recognition Challenge
- Title(参考訳): CNVSRC 2023: 中国初の連続音声認識チャレンジ
- Authors: Chen Chen, Zehua Liu, Xiaolou Li, Lantian Li, Dong Wang,
- Abstract要約: この挑戦は非常に成功し、最も優れた応募はベースラインを大幅に上回った。
本稿では,データプロファイル,タスク仕様,ベースラインシステム構築といった課題を包括的にレビューする。
- 参考スコア(独自算出の注目度): 12.178918299455898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The first Chinese Continuous Visual Speech Recognition Challenge aimed to probe the performance of Large Vocabulary Continuous Visual Speech Recognition (LVC-VSR) on two tasks: (1) Single-speaker VSR for a particular speaker and (2) Multi-speaker VSR for a set of registered speakers. The challenge yielded highly successful results, with the best submission significantly outperforming the baseline, particularly in the single-speaker task. This paper comprehensively reviews the challenge, encompassing the data profile, task specifications, and baseline system construction. It also summarises the representative techniques employed by the submitted systems, highlighting the most effective approaches. Additional information and resources about this challenge can be accessed through the official website at http://cnceleb.org/competition.
- Abstract(参考訳): 最初の中国語連続音声認識チャレンジは,(1)特定の話者に対する単一話者VSRと(2)登録話者の集合に対する複数話者VSRの2つのタスクにおいて,LVC-VSR(Large Vocabulary Continuous Visual Speech Recognition)の性能を調査することを目的とした。
この挑戦は、特に単一話者タスクにおいて、最も優れた応募がベースラインを大幅に上回って、非常に成功した結果となった。
本稿では,データプロファイル,タスク仕様,ベースラインシステム構築といった課題を包括的にレビューする。
また、提出されたシステムで使用される代表的手法を要約し、最も効果的なアプローチを強調している。
この課題に関する追加情報とリソースは、http://cnceleb.org/competition.comの公式サイトからアクセスすることができる。
関連論文リスト
- Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。
TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。
分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-15T03:58:13Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - Summary of the DISPLACE Challenge 2023 -- DIarization of SPeaker and
LAnguage in Conversational Environments [28.618333018398122]
複数の言語が小さな地理的近傍で話される多言語社会では、非公式な会話は言語が混在することが多い。
既存の音声技術は、音声データが複数の言語や話者との多様性に富んでいるような会話から情報を抽出するのに非効率である可能性がある。
DISPLACEチャレンジは、この挑戦的な状況下で話者と言語ダイアリゼーション技術の評価とベンチマークを行うためのオープンコールを構成する。
論文 参考訳(メタデータ) (2023-11-21T12:23:58Z) - Best of Both Worlds: Multi-task Audio-Visual Automatic Speech
Recognition and Active Speaker Detection [9.914246432182873]
ノイズの多い状況下では、自動音声認識は、話者の顔のビデオから得られる視覚信号を追加することで恩恵を受けることができる。
アクティブな話者検出は、可視的な顔のどれがオーディオに対応しているかを各時点に選択することを含む。
近年の研究では、話者の顔の競合するビデオトラックに注意機構を組み込むことで、両問題を同時に解決できることが示されている。
この研究は、マルチタスク損失と共同で訓練できる単一のモデルを示すことによって、アクティブな話者検出精度のこのギャップを埋める。
論文 参考訳(メタデータ) (2022-05-10T23:03:19Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Accented Speech Recognition: A Survey [0.0]
本稿では,アクセント音声認識に対する現在有望なアプローチに関する調査を行う。
その結果、アクセント間のASRパフォーマンスのバイアスは、ASRのユーザとプロバイダの両方にコストがかかる。
論文 参考訳(メタデータ) (2021-04-21T20:21:06Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - VoxSRC 2020: The Second VoxCeleb Speaker Recognition Challenge [99.82500204110015]
第2回「VoxCeleb Speaker Recognition Challenge」をInterspeech 2020と共に開催しました。
この課題の目的は、現在のスピーカー認識技術が、制約のないデータまたは野生のデータでスピーカーをダイアライズして認識できるかどうかを評価することでした。
本稿では,その課題を概説し,ベースライン,使用方法,結果について述べる。
論文 参考訳(メタデータ) (2020-12-12T17:20:57Z) - CHiME-6 Challenge:Tackling Multispeaker Speech Recognition for
Unsegmented Recordings [87.37967358673252]
第6回CiME音声分離認識チャレンジ(CHiME-6)の開催
この課題は、従来のCHiME-5課題を再考し、遠隔マルチマイクロホン音声のダイアリゼーションと認識の問題をさらに検討する。
本稿では, セグメント化多話者音声認識と非セグメント化多話者音声認識におけるCHiME-6チャレンジのベースライン記述について述べる。
論文 参考訳(メタデータ) (2020-04-20T12:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。