論文の概要: Comparison of Conventional Hybrid and CTC/Attention Decoders for
Continuous Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2402.13004v1
- Date: Tue, 20 Feb 2024 13:33:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 15:07:07.147177
- Title: Comparison of Conventional Hybrid and CTC/Attention Decoders for
Continuous Visual Speech Recognition
- Title(参考訳): 連続音声認識における従来のハイブリッドとCTC/アテンションデコーダの比較
- Authors: David Gimeno-G\'omez, Carlos-D. Mart\'inez-Hinarejos
- Abstract要約: 従来のDNN-HMMデコーダとその最先端CTC/Attentionの動作は,その推定に使用されるデータ量に依存する。
その結果、従来のパラダイムは、データ共有シナリオにおけるCTC/Attentionモデルを改善するための認識率に達した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Thanks to the rise of deep learning and the availability of large-scale
audio-visual databases, recent advances have been achieved in Visual Speech
Recognition (VSR). Similar to other speech processing tasks, these end-to-end
VSR systems are usually based on encoder-decoder architectures. While encoders
are somewhat general, multiple decoding approaches have been explored, such as
the conventional hybrid model based on Deep Neural Networks combined with
Hidden Markov Models (DNN-HMM) or the Connectionist Temporal Classification
(CTC) paradigm. However, there are languages and tasks in which data is scarce,
and in this situation, there is not a clear comparison between different types
of decoders. Therefore, we focused our study on how the conventional DNN-HMM
decoder and its state-of-the-art CTC/Attention counterpart behave depending on
the amount of data used for their estimation. We also analyzed to what extent
our visual speech features were able to adapt to scenarios for which they were
not explicitly trained, either considering a similar dataset or another
collected for a different language. Results showed that the conventional
paradigm reached recognition rates that improve the CTC/Attention model in
data-scarcity scenarios along with a reduced training time and fewer
parameters.
- Abstract(参考訳): ディープラーニングの台頭と大規模オーディオ視覚データベースの利用により、視覚音声認識(VSR)における最近の進歩が達成されている。
他の音声処理タスクと同様に、これらのエンドツーエンドのVSRシステムはエンコーダ-デコーダアーキテクチャに基づいている。
エンコーダはやや一般化されているが、隠れマルコフモデル(DNN-HMM)やコネクショニスト時間分類(CTC)パラダイムと組み合わせたディープニューラルネットワークに基づく従来のハイブリッドモデルなど、複数の復号法が検討されている。
しかし、データが不足している言語やタスクがあり、この状況では、異なる種類のデコーダの比較は明確ではない。
そこで本研究では,従来のDNN-HMMデコーダとその最先端CTC/Attentionの動作が,その推定に使用されるデータ量によって異なることに着目した。
また、類似したデータセットや異なる言語で収集された他のデータについても、明示的にトレーニングされていないシナリオに、視覚的な音声機能がどの程度適応できるかを分析しました。
その結果,従来のパラダイムは,データ共有シナリオにおけるCTC/Attentionモデルを改善するための認識率に到達し,トレーニング時間を短縮し,パラメータを減らした。
関連論文リスト
- OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech
Recognition, Translation, and Language Identification [49.09873466927087]
Connectionist Temporal Classification (CTC)に基づく新しいエンコーダのみの音声基礎モデルOWSM-CTCを提案する。
音声認識(ASR)、音声翻訳(ST)、言語識別(LID)のための180k時間の公開音声データをトレーニングする。
エンコーダデコーダOWSMと比較して,OWSM-CTCはASRとSTで最大25%の相対的改善を達成し,より堅牢で推論の3倍から4倍高速である。
論文 参考訳(メタデータ) (2024-02-20T02:04:38Z) - Stateful Conformer with Cache-based Inference for Streaming Automatic
Speech Recognition [21.5129708181387]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。
我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。
CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文 参考訳(メタデータ) (2023-12-27T21:04:26Z) - NAC-TCN: Temporal Convolutional Networks with Causal Dilated
Neighborhood Attention for Emotion Understanding [60.74434735079253]
畳み込みTCN(NAC-TCN)を用いた近傍注意法を提案する。
これを実現するために、Dilated Neighborhood Attentionの因果バージョンを導入し、畳み込みを組み込んだ。
我々のモデルは、標準的な感情認識データセットに少ないパラメータを必要としながら、TCN、TCL、LSTM、GRUに匹敵する、より優れた、あるいは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-12T18:41:30Z) - Disentangled Feature Learning for Real-Time Neural Speech Coding [24.751813940000993]
本稿では,視覚的なエンドツーエンド学習の代わりに,リアルタイムなニューラル音声符号化のための非絡み合った特徴を学習することを提案する。
学習された不整合特徴は、現代の自己教師付き音声表現学習モデルを用いて、任意の音声変換において同等の性能を示す。
論文 参考訳(メタデータ) (2022-11-22T02:50:12Z) - Saliency-Driven Versatile Video Coding for Neural Object Detection [7.367608892486084]
本稿では,最新のビデオ符号化標準であるVersatile Video Coding (VVC) を用いた,機械作業用ビデオ符号化のためのサリエンシ駆動コーディングフレームワークを提案する。
符号化に先立って有能な領域を決定するために, リアルタイムのオブジェクト検出ネットワークであるYou Only Look Once(YOLO)と, 新たな判定基準を併用した。
基準VVCを一定の品質で比較すると,提案手法を適用することで,デコーダ側と同じ検出で最大29%の精度を節約できることがわかった。
論文 参考訳(メタデータ) (2022-03-11T14:27:43Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Non-autoregressive End-to-end Speech Translation with Parallel
Autoregressive Rescoring [83.32560748324667]
本稿では,非自己回帰モデルに基づく効率的なエンドツーエンド音声翻訳(E2E-ST)フレームワークについて述べる。
我々は,共有エンコーダ上にNARデコーダと補助的な浅層ARデコーダを備えた,Orthrosと呼ばれる統一NAR E2E-STフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T16:50:16Z) - Neural Distributed Source Coding [79.83751738445713]
相関構造に依存せず,高次元までスケール可能な損失DSCのためのフレームワークを提案する。
提案手法は,複数のデータセット上で評価し,複雑な相関関係と最先端PSNRを扱えることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:50:43Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - An empirical study of Conv-TasNet [21.781109287184716]
Conv-TasNetは波形に基づくディープニューラルネットワークであり、音源分離における最先端の性能を実現する。
本稿では,エンコーダ/デコーダの拡張について提案する。
その結果,エンコーダ/デコーダの改良により,平均SI-SNR性能を1dB以上向上できることがわかった。
論文 参考訳(メタデータ) (2020-02-20T11:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。