論文の概要: CNVSRC 2024: The Second Chinese Continuous Visual Speech Recognition Challenge
- arxiv url: http://arxiv.org/abs/2506.02010v1
- Date: Tue, 27 May 2025 20:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.340258
- Title: CNVSRC 2024: The Second Chinese Continuous Visual Speech Recognition Challenge
- Title(参考訳): CNVSRC 2024: 2回目の中国語連続音声認識チャレンジ
- Authors: Zehua Liu, Xiaolou Li, Chen Chen, Lantian Li, Dong Wang,
- Abstract要約: この課題は、レコーディングスタジオでの読書とインターネットスピーチの2つのテストシナリオを評価する。
CNVSRC 2024は、CNVSRC 2023と同じデータセットを使用する。
この新たな課題は、データ前処理、特徴抽出、モデル設計、トレーニング戦略において、いくつかの重要なイノベーションを実証した。
- 参考スコア(独自算出の注目度): 12.178918299455898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the second Chinese Continuous Visual Speech Recognition Challenge (CNVSRC 2024), which builds on CNVSRC 2023 to advance research in Chinese Large Vocabulary Continuous Visual Speech Recognition (LVC-VSR). The challenge evaluates two test scenarios: reading in recording studios and Internet speech. CNVSRC 2024 uses the same datasets as its predecessor CNVSRC 2023, which involves CN-CVS for training and CNVSRC-Single/Multi for development and evaluation. However, CNVSRC 2024 introduced two key improvements: (1) a stronger baseline system, and (2) an additional dataset, CN-CVS2-P1, for open tracks to improve data volume and diversity. The new challenge has demonstrated several important innovations in data preprocessing, feature extraction, model design, and training strategies, further pushing the state-of-the-art in Chinese LVC-VSR. More details and resources are available at the official website.
- Abstract(参考訳): 本稿では,中国語大語彙連続音声認識(LVC-VSR)の研究を進めるために,CNVSRC 2023に基づく第2回中国語連続音声認識チャレンジ(CNVSRC 2024)を提案する。
この課題は、レコーディングスタジオでの読書とインターネットスピーチの2つのテストシナリオを評価する。
CNVSRC 2024は、CNVSRC 2023と同じデータセットを使用しており、トレーニングにはCNVS-CVS、開発と評価にはCNVSRC-Single/Multiが使用される。
しかし、CNVSRC 2024では、(1)より強力なベースラインシステム、(2)データ量と多様性を改善するために、オープントラックのための追加データセットであるCN-CVS2-P1が導入された。
この新たな課題は、データ前処理、特徴抽出、モデル設計、トレーニング戦略におけるいくつかの重要なイノベーションを示し、さらに中国のLVC-VSRの最先端を推し進めている。
詳細とリソースは公式ウェブサイトで確認できる。
関連論文リスト
- The NPU-ASLP System Description for Visual Speech Recognition in CNVSRC 2024 [15.904649354308141]
本稿では,第2回中国連続視覚音声認識チャレンジ(CNVSRC 2024)において,NPU-ASLP (Team 237) が導入した視覚音声認識システムについて述べる。
データ処理に関しては,ベースライン1からリップモーション抽出器を利用してマルチスケール映像データを生成する。
トレーニング中に、速度摂動、ランダム回転、水平反転、色変換を含む様々な拡張技術が適用される。
提案手法では, 単一話者タスクが30.47%, 複数話者タスクが34.30%, 単一話者タスクがオープントラックで第2位を確保している。
論文 参考訳(メタデータ) (2024-08-05T10:38:50Z) - CNVSRC 2023: The First Chinese Continuous Visual Speech Recognition Challenge [12.178918299455898]
この挑戦は非常に成功し、最も優れた応募はベースラインを大幅に上回った。
本稿では,データプロファイル,タスク仕様,ベースラインシステム構築といった課題を包括的にレビューする。
論文 参考訳(メタデータ) (2024-06-14T12:49:38Z) - The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in
CNVSRC 2023 [67.11294606070278]
本稿では,第1回中国連続視覚音声認識チャレンジ(CNVSRC)2023において,NPU-ASLP-LiAuto(Team 237)が導入した視覚音声認識システムについて述べる。
データ処理に関しては,ベースライン1からリップモーション抽出器を利用してマルチスケール映像データを生成する。
トレーニング中に、速度摂動、ランダム回転、水平反転、色変換を含む様々な拡張技術が適用される。
論文 参考訳(メタデータ) (2024-01-07T14:20:52Z) - The GUA-Speech System Description for CNVSRC Challenge 2023 [8.5257557043542]
本研究では,中国連続視覚音声認識チャレンジ(CNVSRC)2023におけるタスク1単一話者視覚音声認識(VSR)固定トラックについて述べる。
我々は、中間接続性時間分類(Inter CTC)残基を用いて、我々のモデルにおけるCTCの条件独立仮定を緩和する。
また、バイトランスフォーマーデコーダを使用して、モデルが過去と未来の両方のコンテキスト情報をキャプチャできるようにする。
論文 参考訳(メタデータ) (2023-12-12T13:35:33Z) - Bridging the Gaps of Both Modality and Language: Synchronous Bilingual
CTC for Speech Translation and Speech Recognition [46.41096278421193]
BiL-CTC+は、ソース言語とターゲット言語とのギャップを埋める。
また,音声認識性能も大幅に向上した。
論文 参考訳(メタデータ) (2023-09-21T16:28:42Z) - A Comparative Study of Self-supervised Speech Representation Based Voice
Conversion [47.250866153881645]
本稿では、自己教師型音声表現(S3R)に基づく音声変換(VC)の大規模比較研究について述べる。
モデルタイプ,多言語性,監督など,S3RベースのVCについて検討した。
また,k-meansによる減量後処理の効果について検討し,A2A設定でどのように改善するかを示した。
論文 参考訳(メタデータ) (2022-07-10T01:02:22Z) - Evaluating the COVID-19 Identification ResNet (CIdeR) on the INTERSPEECH
COVID-19 from Audio Challenges [59.78485839636553]
CIdeRはエンド・ツー・エンドのディープラーニング・ニューラルネットワークで、個人が新型コロナウイルス陽性か新型コロナウイルス陰性かを分類するために設計された。
COVID-19 CoughとInterSPEECH 2021, ComParE, DiCOVAの両者によるCIdeRのバイナリ診断の可能性を示した。
論文 参考訳(メタデータ) (2021-07-30T10:59:08Z) - ZR-2021VG: Zero-Resource Speech Challenge, Visually-Grounded Language
Modelling track, 2021 edition [96.87241233266448]
このトラックは、Zero-Resource Speech Challenge、2021年版、第2ラウンドで導入された。
我々は、新しいトラックを動機付け、参加ルールを詳細に議論する。
また,このトラック用に開発された2つのベースラインシステムについても紹介する。
論文 参考訳(メタデータ) (2021-07-14T08:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。