論文の概要: The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in
CNVSRC 2023
- arxiv url: http://arxiv.org/abs/2401.06788v2
- Date: Thu, 29 Feb 2024 18:09:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:04:53.514954
- Title: The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in
CNVSRC 2023
- Title(参考訳): CNVSRC 2023における音声認識のためのNPU-ASLP-LiAutoシステム記述
- Authors: He Wang, Pengcheng Guo, Wei Chen, Pan Zhou, Lei Xie
- Abstract要約: 本稿では,第1回中国連続視覚音声認識チャレンジ(CNVSRC)2023において,NPU-ASLP-LiAuto(Team 237)が導入した視覚音声認識システムについて述べる。
データ処理に関しては,ベースライン1からリップモーション抽出器を利用してマルチスケール映像データを生成する。
トレーニング中に、速度摂動、ランダム回転、水平反転、色変換を含む様々な拡張技術が適用される。
- 参考スコア(独自算出の注目度): 67.11294606070278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper delineates the visual speech recognition (VSR) system introduced
by the NPU-ASLP-LiAuto (Team 237) in the first Chinese Continuous Visual Speech
Recognition Challenge (CNVSRC) 2023, engaging in the fixed and open tracks of
Single-Speaker VSR Task, and the open track of Multi-Speaker VSR Task. In terms
of data processing, we leverage the lip motion extractor from the baseline1 to
produce multi-scale video data. Besides, various augmentation techniques are
applied during training, encompassing speed perturbation, random rotation,
horizontal flipping, and color transformation. The VSR model adopts an
end-to-end architecture with joint CTC/attention loss, comprising a ResNet3D
visual frontend, an E-Branchformer encoder, and a Transformer decoder.
Experiments show that our system achieves 34.76% CER for the Single-Speaker
Task and 41.06% CER for the Multi-Speaker Task after multi-system fusion,
ranking first place in all three tracks we participate.
- Abstract(参考訳): 本稿では,第1回中国連続視覚音声認識チャレンジ(CNVSRC)2023において,NPU-ASLP-LiAuto(Team 237)が導入した視覚音声認識(VSR)システムについて述べる。
データ処理の観点からは、ベースライン1からの唇運動抽出器を利用して、マルチスケールビデオデータを生成する。
さらに、トレーニング中に、速度摂動、ランダム回転、水平反転、色変換を含む様々な拡張技術が適用される。
VSRモデルは、ResNet3Dビジュアルフロントエンド、E-Branchformerエンコーダ、Transformerデコーダを含む、共同CTC/アテンション損失を伴うエンドツーエンドアーキテクチャを採用する。
実験の結果,本システムはマルチシステム融合後のシングルスピーカタスクで34.76%,マルチスピーカタスクで41.06%,参加3トラックで1位となった。
関連論文リスト
- Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - The NPU-ASLP System Description for Visual Speech Recognition in CNVSRC 2024 [15.904649354308141]
本稿では,第2回中国連続視覚音声認識チャレンジ(CNVSRC 2024)において,NPU-ASLP (Team 237) が導入した視覚音声認識システムについて述べる。
データ処理に関しては,ベースライン1からリップモーション抽出器を利用してマルチスケール映像データを生成する。
トレーニング中に、速度摂動、ランダム回転、水平反転、色変換を含む様々な拡張技術が適用される。
提案手法では, 単一話者タスクが30.47%, 複数話者タスクが34.30%, 単一話者タスクがオープントラックで第2位を確保している。
論文 参考訳(メタデータ) (2024-08-05T10:38:50Z) - Enhancing Lip Reading with Multi-Scale Video and Multi-Encoder [21.155264134308915]
リップリーダーは、ビデオで捉えたスピーカーのサイレントな唇の動きから、音声コンテンツを自動で書き起こすことを目的としている。
マルチスケールビデオデータとマルチエンコーダを組み込むことにより,唇読取能力を向上させることを提案する。
提案手法はICME 2024 ChatCLR Challenge Task 2で2位となった。
論文 参考訳(メタデータ) (2024-04-08T12:44:24Z) - A Multimodal Approach to Device-Directed Speech Detection with Large Language Models [41.37311266840156]
我々は、ユーザが各コマンドをトリガーフレーズで開始しなければならないという要求を省くことが可能かどうかを探る。
音声波形から得られた音響情報のみを用いて分類器を訓練する。
本研究では,1-best仮説などの自動音声認識システムのデコーダ出力を,大規模言語モデルへの入力特徴とみなす。
論文 参考訳(メタデータ) (2024-03-21T14:44:03Z) - ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech
Recognition Challenge [94.13624830833314]
この課題は、新しいエネルギー車両内で記録された100時間以上のマルチチャネル音声データを収集する。
1位チームのUSTCiflytekはASRトラックで13.16%のCER、ASDRトラックで21.48%のcpCERを達成した。
論文 参考訳(メタデータ) (2024-01-07T12:51:42Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。