論文の概要: How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition
- arxiv url: http://arxiv.org/abs/2004.08250v1
- Date: Fri, 17 Apr 2020 13:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 13:54:01.633001
- Title: How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition
- Title(参考訳): 音声認識における視覚的モダリティに注意を払うためのDNNの教育方法
- Authors: George Sterpu, Christian Saam, Naomi Harte
- Abstract要約: 本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
- 参考スコア(独自算出の注目度): 10.74796391075403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-Visual Speech Recognition (AVSR) seeks to model, and thereby exploit,
the dynamic relationship between a human voice and the corresponding mouth
movements. A recently proposed multimodal fusion strategy, AV Align, based on
state-of-the-art sequence to sequence neural networks, attempts to model this
relationship by explicitly aligning the acoustic and visual representations of
speech. This study investigates the inner workings of AV Align and visualises
the audio-visual alignment patterns. Our experiments are performed on two of
the largest publicly available AVSR datasets, TCD-TIMIT and LRS2. We find that
AV Align learns to align acoustic and visual representations of speech at the
frame level on TCD-TIMIT in a generally monotonic pattern. We also determine
the cause of initially seeing no improvement over audio-only speech recognition
on the more challenging LRS2. We propose a regularisation method which involves
predicting lip-related Action Units from visual representations. Our
regularisation method leads to better exploitation of the visual modality, with
performance improvements between 7% and 30% depending on the noise level.
Furthermore, we show that the alternative Watch, Listen, Attend, and Spell
network is affected by the same problem as AV Align, and that our proposed
approach can effectively help it learn visual representations. Our findings
validate the suitability of the regularisation method to AVSR and encourage
researchers to rethink the multimodal convergence problem when having one
dominant modality.
- Abstract(参考訳): AVSR(Audio-Visual Speech Recognition)は、人間の声とそれに対応する口の動きのダイナミックな関係をモデル化し、活用しようとする。
最近提案されたマルチモーダル融合戦略 AV Align は,音声の音響的および視覚的表現を明示的に整合させて,この関係をモデル化しようとするものである。
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
実験は,最大規模のAVSRデータセットであるTCD-TIMITとLSS2を用いて行った。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで音声の音響的および視覚的表現を調整することを学習している。
また,より難易度の高いLSS2では,音声のみの音声認識が改善しなかった原因についても検討した。
視覚表現から唇関連行動単位を予測するための正規化手法を提案する。
本手法は,ノイズレベルに応じて7%から30%の性能改善を行い,視覚モダリティの活用性が向上した。
さらに,Watch,Listen, Attend, Spell のネットワークは AV Align と同じ問題の影響を受けており,提案手法は視覚表現の学習に有効であることを示す。
本研究は, AVSR に対する正規化手法の適合性を検証し, 1 つの支配的モダリティを持つ場合の多重モーダル収束問題の再考を促すものである。
関連論文リスト
- Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - Cross-Modal Global Interaction and Local Alignment for Audio-Visual
Speech Recognition [21.477900473255264]
音声・視覚音声認識(AVSR)のための多言語間相互作用と局所アライメント(GILA)アプローチを提案する。
具体的には、A-Vの相補関係をモダリティレベルで捉えるためのグローバル相互作用モデルと、フレームレベルでのA-Vの時間的一貫性をモデル化するための局所アライメントアプローチを設計する。
我々のGILAは、公開ベンチマークのLSS3とLSS2で教師付き学習状況よりも優れています。
論文 参考訳(メタデータ) (2023-05-16T06:41:25Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。