論文の概要: Cross-Modal Global Interaction and Local Alignment for Audio-Visual
Speech Recognition
- arxiv url: http://arxiv.org/abs/2305.09212v1
- Date: Tue, 16 May 2023 06:41:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 16:05:21.715904
- Title: Cross-Modal Global Interaction and Local Alignment for Audio-Visual
Speech Recognition
- Title(参考訳): 音声・視覚音声認識のためのクロスモーダルグローバルインタラクションと局所アライメント
- Authors: Yuchen Hu, Ruizhe Li, Chen Chen, Heqing Zou, Qiushi Zhu, Eng Siong
Chng
- Abstract要約: 音声・視覚音声認識(AVSR)のための多言語間相互作用と局所アライメント(GILA)アプローチを提案する。
具体的には、A-Vの相補関係をモダリティレベルで捉えるためのグローバル相互作用モデルと、フレームレベルでのA-Vの時間的一貫性をモデル化するための局所アライメントアプローチを設計する。
我々のGILAは、公開ベンチマークのLSS3とLSS2で教師付き学習状況よりも優れています。
- 参考スコア(独自算出の注目度): 21.477900473255264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual speech recognition (AVSR) research has gained a great success
recently by improving the noise-robustness of audio-only automatic speech
recognition (ASR) with noise-invariant visual information. However, most
existing AVSR approaches simply fuse the audio and visual features by
concatenation, without explicit interactions to capture the deep correlations
between them, which results in sub-optimal multimodal representations for
downstream speech recognition task. In this paper, we propose a cross-modal
global interaction and local alignment (GILA) approach for AVSR, which captures
the deep audio-visual (A-V) correlations from both global and local
perspectives. Specifically, we design a global interaction model to capture the
A-V complementary relationship on modality level, as well as a local alignment
approach to model the A-V temporal consistency on frame level. Such a holistic
view of cross-modal correlations enable better multimodal representations for
AVSR. Experiments on public benchmarks LRS3 and LRS2 show that our GILA
outperforms the supervised learning state-of-the-art.
- Abstract(参考訳): 近年,音声のみの自動音声認識(ASR)のノイズロス性を改善することで,音声視覚音声認識(AVSR)の研究は大きな成功を収めている。
しかし、既存のAVSRのアプローチのほとんどは、音声と視覚の特徴を結合させることで融合させ、それら間の深い相関を捉えることなく、下流音声認識タスクの準最適マルチモーダル表現をもたらす。
本稿では,大域的および局所的な視点からより深い視聴覚的(a-v)相関を捉えたavsrのためのクロスモーダル・グローバル・インタラクション・ローカルアライメント(gila)手法を提案する。
具体的には,モダリティレベルでのa-v相補関係を捉え,フレームレベルでのa-v相補的一貫性をモデル化するための局所的アライメントアプローチを考案する。
このようなクロスモーダル相関の全体論的な見方は、AVSRのより優れたマルチモーダル表現を可能にする。
LRS3 と LRS2 の公開ベンチマーク実験では、GILA は教師付き学習状況よりも優れています。
関連論文リスト
- AlignVSR: Audio-Visual Cross-Modal Alignment for Visual Speech Recognition [14.977161583456985]
視覚音声認識(VSR)は、唇の動きから視覚情報を分析することで、対応するテキストを認識することを目的としている。
本稿では,AlignVSR という音声と視覚の相互アライメントに基づく VSR 手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T19:02:13Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Leveraging Modality-specific Representations for Audio-visual Speech
Recognition via Reinforcement Learning [25.743503223389784]
我々は、MSRLと呼ばれる強化学習(RL)ベースのフレームワークを提案する。
タスク固有のメトリクスに直接関連する報酬関数をカスタマイズする。
LRS3データセットによる実験結果から,提案手法は清浄な騒音条件と各種雑音条件の両方で最先端の手法を実現することが示された。
論文 参考訳(メタデータ) (2022-12-10T14:01:54Z) - Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal
Retrieval [7.459223771397159]
クロスモーダルデータ(例えばオーディオヴィジュアル)は直接比較できない分布と表現が異なる。
オーディオ・ヴィジュアルデータの自然な同期における内在的相関をアノテートされたラベルの助けを借りることで、オーディオ・ヴィジュアル・モダリティ間のギャップを埋めるため、それらの共通部分空間を学習する。
ラベルを直接予測して意味的特徴を最適化する新しいAV-CMRモデルを提案する。
論文 参考訳(メタデータ) (2022-11-07T10:37:14Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。