論文の概要: AV Taris: Online Audio-Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2012.07467v1
- Date: Mon, 14 Dec 2020 12:39:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:17:36.145316
- Title: AV Taris: Online Audio-Visual Speech Recognition
- Title(参考訳): AV Taris: オンラインオーディオ・ビジュアル音声認識
- Authors: George Sterpu and Naomi Harte
- Abstract要約: 本稿では,音声・視覚音声をリアルタイムで復号可能なニューラルネットワークモデルであるAV Tarisを開発する。
オーディオビジュアル音声統合とオンライン音声認識の2つの提案モデルを組み合わせることで実現する。
その結果,av tarisは音声のみのtarisよりも優れており,音声認識における視覚モダリティの有用性が示された。
- 参考スコア(独自算出の注目度): 16.294328961318325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Automatic Speech Recognition (ASR) technology has approached
human-level performance on conversational speech under relatively clean
listening conditions. In more demanding situations involving distant
microphones, overlapped speech, background noise, or natural dialogue
structures, the ASR error rate is at least an order of magnitude higher. The
visual modality of speech carries the potential to partially overcome these
challenges and contribute to the sub-tasks of speaker diarisation, voice
activity detection, and the recovery of the place of articulation, and can
compensate for up to 15dB of noise on average. This article develops AV Taris,
a fully differentiable neural network model capable of decoding audio-visual
speech in real time. We achieve this by connecting two recently proposed models
for audio-visual speech integration and online speech recognition, namely AV
Align and Taris. We evaluate AV Taris under the same conditions as AV Align and
Taris on one of the largest publicly available audio-visual speech datasets,
LRS2. Our results show that AV Taris is superior to the audio-only variant of
Taris, demonstrating the utility of the visual modality to speech recognition
within the real time decoding framework defined by Taris. Compared to an
equivalent Transformer-based AV Align model that takes advantage of full
sentences without meeting the real-time requirement, we report an absolute
degradation of approximately 3% with AV Taris. As opposed to the more popular
alternative for online speech recognition, namely the RNN Transducer, Taris
offers a greatly simplified fully differentiable training pipeline. As a
consequence, AV Taris has the potential to popularise the adoption of
Audio-Visual Speech Recognition (AVSR) technology and overcome the inherent
limitations of the audio modality in less optimal listening conditions.
- Abstract(参考訳): 近年,ASR(Automatic Speech Recognition)技術は,比較的清潔な聴取条件下での会話音声における人間のレベルパフォーマンスにアプローチしている。
遠方のマイク、重複した音声、バックグラウンドノイズ、あるいは自然な対話構造を含むより要求の高い状況では、ASRエラー率は少なくとも1桁高い。
音声の視覚的モダリティは、これらの課題を部分的に克服し、話者ダイアリゼーション、音声活動検出、調音場所の回復といったサブタスクに寄与する可能性を持ち、平均15dbまでのノイズを補償することができる。
本稿では,音声視覚音声をリアルタイムに復号可能な,完全微分可能なニューラルネットワークモデルであるAV Tarisを開発する。
AV Align と Taris という,近年提案されている音声・視覚音声統合モデルとオンライン音声認識モデルを組み合わせることで,これを実現する。
AV Align と Taris と同じ条件下で AV Taris を評価する。
その結果,AV Taris は Taris の音声のみの変形よりも優れており,Taris が定義したリアルタイム復号化フレームワーク内での音声認識に対する視覚的モダリティの有用性が示された。
実時間要求を満たすことなく全文を活用できる等価なトランスフォーマーベースAVアラインモデルと比較して, AV Taris による絶対分解率は約3%である。
オンライン音声認識の選択肢であるRNN Transducerとは対照的に、Tarisは大幅に単純化された完全微分可能なトレーニングパイプラインを提供する。
その結果、av tarisは、avsr(audio-visual speech recognition)技術の採用を普及させ、より最適なリスニング条件下でのオーディオモダリティの固有の制限を克服する可能性を秘めている。
関連論文リスト
- XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation [58.72068260933836]
システムの入力と出力はマルチモーダル(音声と視覚)である
私たちは、自分の主要言語を利用することで、仮想ミーティングで世界中の個人とリアルタイムな会話を行うことができます。
音声モダリティのみを翻訳する音声音声合成(A2A)とは対照的に,提案したAV2AVは音声・視覚音声を直接翻訳する。
論文 参考訳(メタデータ) (2023-12-05T05:36:44Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Late Audio-Visual Fusion for In-The-Wild Speaker Diarization [33.0046568984949]
本稿では,後期融合による音声のみと視覚中心のサブシステムを組み合わせた音声視覚ダイアリゼーションモデルを提案する。
オーディオでは,提案手法を用いてシミュレーションされたプロキシデータセットのレシピをトレーニングした場合,アトラクタベースのエンドツーエンドシステム(EEND-EDA)が極めてよく動作することを示す。
また、学習中にデコードに注意を払い、話者認識損失を減らし、より多くの話者を処理するEEND-EDA++の改良版も提案する。
論文 参考訳(メタデータ) (2022-11-02T17:20:42Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。