論文の概要: Multimodal Speech Recognition with Unstructured Audio Masking
- arxiv url: http://arxiv.org/abs/2010.08642v1
- Date: Fri, 16 Oct 2020 21:49:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 21:16:11.187215
- Title: Multimodal Speech Recognition with Unstructured Audio Masking
- Title(参考訳): 非構造音声マスキングを用いたマルチモーダル音声認識
- Authors: Tejas Srinivasan, Ramon Sanabria, Florian Metze, Desmond Elliott
- Abstract要約: 我々はモデルトレーニング中にRandWordMaskと呼ばれるより現実的なマスキングシナリオをシミュレートする。
Flickr 8K Audio Captions Corpusで行った実験では、マルチモーダルASRが様々な種類のマスキング語を復元するために一般化できることが示されている。
分析の結果,音声信号が破損した場合に,我々のモデルが視覚信号に対応できることが判明した。
- 参考スコア(独自算出の注目度): 49.01826387664443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual context has been shown to be useful for automatic speech recognition
(ASR) systems when the speech signal is noisy or corrupted. Previous work,
however, has only demonstrated the utility of visual context in an unrealistic
setting, where a fixed set of words are systematically masked in the audio. In
this paper, we simulate a more realistic masking scenario during model
training, called RandWordMask, where the masking can occur for any word
segment. Our experiments on the Flickr 8K Audio Captions Corpus show that
multimodal ASR can generalize to recover different types of masked words in
this unstructured masking setting. Moreover, our analysis shows that our models
are capable of attending to the visual signal when the audio signal is
corrupted. These results show that multimodal ASR systems can leverage the
visual signal in more generalized noisy scenarios.
- Abstract(参考訳): 視覚的コンテキストは、音声信号が雑音や破損しているときに自動音声認識(ASR)システムに有用であることが示されている。
しかし、以前の研究は、固定された単語のセットがオーディオに体系的にマスクされる非現実的な環境での視覚的コンテキストの有用性を実証しただけであった。
本稿では,任意の単語セグメントに対してマスキングを行うRandWordMaskと呼ばれるモデルトレーニングにおいて,より現実的なマスキングシナリオをシミュレートする。
Flickr 8K Audio Captions Corpusの実験では、マルチモーダルASRは、この非構造化マスキング設定において、様々な種類のマスキング語を復元する。
さらに,本分析により,音声信号が破損した場合に,我々のモデルが視覚信号に対応できることが示唆された。
これらの結果から,マルチモーダルASRシステムはより一般化された雑音のシナリオで視覚信号を利用することができることがわかった。
関連論文リスト
- Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - MaskSR: Masked Language Model for Full-band Speech Restoration [7.015213589171985]
音声の復元は,様々な歪みが存在する場合に高品質な音声を復元することを目的としている。
雑音,リバーブ,クリップング,低帯域を考慮したフルバンド44.1kHz音声の復元が可能なマスク付き言語モデルであるMaskSRを提案する。
論文 参考訳(メタデータ) (2024-06-04T08:23:57Z) - EnCodecMAE: Leveraging neural codecs for universal audio representation learning [16.590638305972632]
我々は、音声信号のマスキング表現を提案し、マスクされたセグメントを再構築するためにMAEを訓練する。
本研究では,EnCodecMAEと呼ぶこのアプローチを,音声,音楽,環境音を含む幅広いタスクで評価する。
論文 参考訳(メタデータ) (2023-09-14T02:21:53Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Fine-Grained Grounding for Multimodal Speech Recognition [49.01826387664443]
本稿では,画像の各部分からよりきめ細かい視覚情報を利用するモデルを提案する。
Flickr8K Audio Captions Corpusの実験では、私たちのモデルはグローバルな視覚的特徴を使用するアプローチよりも改善されていることがわかった。
論文 参考訳(メタデータ) (2020-10-05T23:06:24Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Looking Enhances Listening: Recovering Missing Speech Using Images [40.616935661628155]
本稿では,雑音条件下での視覚的モダリティの有用性を示す一連の実験について述べる。
この結果から,マルチモーダル ASR モデルでは,入力音響信号に隠蔽された単語を,視覚的表現を用いて接地することで復元できることがわかった。
論文 参考訳(メタデータ) (2020-02-13T17:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。