論文の概要: The GUA-Speech System Description for CNVSRC Challenge 2023
- arxiv url: http://arxiv.org/abs/2312.07254v1
- Date: Tue, 12 Dec 2023 13:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 16:03:03.366653
- Title: The GUA-Speech System Description for CNVSRC Challenge 2023
- Title(参考訳): cnvsrcチャレンジ2023のgua-speechシステム記述
- Authors: Shengqiang Li, Chao Lei, Baozhong Ma, Binbin Zhang, Fuping Pan
- Abstract要約: 本研究では,中国連続視覚音声認識チャレンジ(CNVSRC)2023におけるタスク1単一話者視覚音声認識(VSR)固定トラックについて述べる。
我々は、中間接続性時間分類(Inter CTC)残基を用いて、我々のモデルにおけるCTCの条件独立仮定を緩和する。
また、バイトランスフォーマーデコーダを使用して、モデルが過去と未来の両方のコンテキスト情報をキャプチャできるようにする。
- 参考スコア(独自算出の注目度): 8.5257557043542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study describes our system for Task 1 Single-speaker Visual Speech
Recognition (VSR) fixed track in the Chinese Continuous Visual Speech
Recognition Challenge (CNVSRC) 2023. Specifically, we use intermediate
connectionist temporal classification (Inter CTC) residual modules to relax the
conditional independence assumption of CTC in our model. Then we use a
bi-transformer decoder to enable the model to capture both past and future
contextual information. In addition, we use Chinese characters as the modeling
units to improve the recognition accuracy of our model. Finally, we use a
recurrent neural network language model (RNNLM) for shallow fusion in the
inference stage. Experiments show that our system achieves a character error
rate (CER) of 38.09% on the Eval set which reaches a relative CER reduction of
21.63% over the official baseline, and obtains a second place in the challenge.
- Abstract(参考訳): 本研究では,中国連続視覚音声認識チャレンジ(CNVSRC)2023におけるタスク1単一話者視覚音声認識(VSR)固定トラックについて述べる。
具体的には、中間連結型時間分類(Inter CTC)残基を用いて、モデルにおけるCTCの条件独立性仮定を緩和する。
次に、バイトランスフォーマデコーダを使用して、モデルが過去と将来のコンテキスト情報の両方をキャプチャできるようにする。
さらに, モデルの認識精度を向上させるために, モデル単位として漢字を用いる。
最後に、推論段階における浅い融合のために、recurrent neural network language model (rnnlm) を用いる。
実験により,本システムはevalセット上で38.09%の文字誤り率(cer)を達成し,公式ベースライン上で21.63%の相対的なcer削減を達成し,課題の第2位を得た。
関連論文リスト
- The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in
CNVSRC 2023 [67.11294606070278]
本稿では,第1回中国連続視覚音声認識チャレンジ(CNVSRC)2023において,NPU-ASLP-LiAuto(Team 237)が導入した視覚音声認識システムについて述べる。
データ処理に関しては,ベースライン1からリップモーション抽出器を利用してマルチスケール映像データを生成する。
トレーニング中に、速度摂動、ランダム回転、水平反転、色変換を含む様々な拡張技術が適用される。
論文 参考訳(メタデータ) (2024-01-07T14:20:52Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource
Speech Translation Tasks [8.651248939672769]
本稿では,IWSLT 2022の評価キャンペーンにおける2つの課題トラックに対して開発されたON-TRACコンソーシアム翻訳システムについて述べる。
ASRの大規模微調整wav2vec 2.0モデルを利用するカスケードモデルと比較した。
この結果から,小型のターゲットデータを用いた自己教師型モデルの方が,大規模な市販モデルに比べて低リソースのSTファインチューニングに有効であることが示唆された。
論文 参考訳(メタデータ) (2022-05-04T10:36:57Z) - Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文 参考訳(メタデータ) (2021-06-21T03:36:36Z) - Three-class Overlapped Speech Detection using a Convolutional Recurrent
Neural Network [32.59704287230343]
提案手法は,非音声,単一話者発話,重複発話の3つのクラスに分類できる。
畳み込み型リカレントニューラルネットワークアーキテクチャは、畳み込み層がローカルパターンをモデル化する能力と、シーケンシャルな情報をモデル化するリカレント層の能力の両方の恩恵を受けるために研究されている。
提案した重畳重畳音声検出モデルは,DIHARD II評価セット上での精度0.6648,リコール0.3222で最先端の性能を確立する。
論文 参考訳(メタデータ) (2021-04-07T03:01:34Z) - Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文 参考訳(メタデータ) (2020-09-02T01:07:29Z) - Vector-quantized neural networks for acoustic unit discovery in the
ZeroSpeech 2020 challenge [26.114011076658237]
音声の離散表現を学習する問題に対処する2つのニューラルモデルを提案する。
第1モデルはベクトル量子化変分オートエンコーダ(VQ-VAE)の一種である。
第2のモデルはベクトル量子化と対比予測符号化(VQ-CPC)を組み合わせる
我々は、ZeroSpeech 2020チャレンジにおいて、英語とインドネシア語のデータをモデルとして評価した。
論文 参考訳(メタデータ) (2020-05-19T13:06:17Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。