論文の概要: Should we hard-code the recurrence concept or learn it instead ?
Exploring the Transformer architecture for Audio-Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2005.09297v1
- Date: Tue, 19 May 2020 09:06:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 14:43:22.037085
- Title: Should we hard-code the recurrence concept or learn it instead ?
Exploring the Transformer architecture for Audio-Visual Speech Recognition
- Title(参考訳): 繰り返しの概念をハードコードするか、代わりに学ぶべきか?
音声認識のためのトランスフォーマーアーキテクチャの探索
- Authors: George Sterpu, Christian Saam, Naomi Harte
- Abstract要約: 本稿では,最近提案されたTransformerブロックに,Long Short-term Memory(LSTM)ブロックを置き換えた AV Align の変種について述べる。
また,トランスフォーマーはクロスモーダルなモノトニックアライメントも学習するが,LSTMモデルと同じ視覚収束問題に悩まされている。
- 参考スコア(独自算出の注目度): 10.74796391075403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The audio-visual speech fusion strategy AV Align has shown significant
performance improvements in audio-visual speech recognition (AVSR) on the
challenging LRS2 dataset. Performance improvements range between 7% and 30%
depending on the noise level when leveraging the visual modality of speech in
addition to the auditory one. This work presents a variant of AV Align where
the recurrent Long Short-term Memory (LSTM) computation block is replaced by
the more recently proposed Transformer block. We compare the two methods,
discussing in greater detail their strengths and weaknesses. We find that
Transformers also learn cross-modal monotonic alignments, but suffer from the
same visual convergence problems as the LSTM model, calling for a deeper
investigation into the dominant modality problem in machine learning.
- Abstract(参考訳): 音声-視覚的音声融合戦略であるAV Alignは、挑戦的なLSS2データセット上での音声-視覚的音声認識(AVSR)の性能を大幅に改善した。
聴覚機能に加えて音声の視覚的モダリティを利用する場合の雑音レベルによっては7%から30%の範囲で性能が向上する。
本稿では、直流のlong short-term memory(lstm)計算ブロックを、より最近提案されたtransformerブロックに置き換えるavアライメントの変種を提案する。
2つの方法を比較し、その強みと弱みについてより詳細に論じる。
また、トランスフォーマーは、クロスモーダルなモノトニックアライメントも学習するが、LSTMモデルと同じ視覚収束問題に悩まされ、機械学習における支配的なモダリティ問題に対するより深い調査が求められている。
関連論文リスト
- Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z) - Audio-Visual Decision Fusion for WFST-based and seq2seq Models [3.2771898634434997]
雑音下では、音声認識システムは高い単語誤り率(WER)に悩まされる
提案手法は,推測時における音声と視覚のモダリティから情報を融合する新しい手法である。
提案手法は音響のみのWERよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-01-29T13:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。