論文の概要: Looking Enhances Listening: Recovering Missing Speech Using Images
- arxiv url: http://arxiv.org/abs/2002.05639v1
- Date: Thu, 13 Feb 2020 17:12:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 13:40:39.778706
- Title: Looking Enhances Listening: Recovering Missing Speech Using Images
- Title(参考訳): 聞き取りを強くする:画像による失語音声の復元
- Authors: Tejas Srinivasan, Ramon Sanabria, Florian Metze
- Abstract要約: 本稿では,雑音条件下での視覚的モダリティの有用性を示す一連の実験について述べる。
この結果から,マルチモーダル ASR モデルでは,入力音響信号に隠蔽された単語を,視覚的表現を用いて接地することで復元できることがわかった。
- 参考スコア(独自算出の注目度): 40.616935661628155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech is understood better by using visual context; for this reason, there
have been many attempts to use images to adapt automatic speech recognition
(ASR) systems. Current work, however, has shown that visually adapted ASR
models only use images as a regularization signal, while completely ignoring
their semantic content. In this paper, we present a set of experiments where we
show the utility of the visual modality under noisy conditions. Our results
show that multimodal ASR models can recover words which are masked in the input
acoustic signal, by grounding its transcriptions using the visual
representations. We observe that integrating visual context can result in up to
35% relative improvement in masked word recovery. These results demonstrate
that end-to-end multimodal ASR systems can become more robust to noise by
leveraging the visual context.
- Abstract(参考訳): 音声は視覚的コンテキストを用いてよりよく理解され、そのため、自動音声認識(ASR)システムに画像を適用する試みが数多く行われている。
しかし、現在の研究によると、視覚的に適応されたASRモデルは、画像のみを正規化信号として使用し、意味的内容を完全に無視している。
本稿では,雑音条件下での視覚的モダリティの有用性を示す一連の実験について述べる。
この結果から,マルチモーダル ASR モデルでは,入力音響信号に隠蔽された単語を,視覚的表現を用いて接地することで復元できることがわかった。
視覚的なコンテキストの統合は,マスキングワードリカバリにおいて,最大35%の相対的改善をもたらす可能性がある。
これらの結果は、視覚的コンテキストを活用することで、エンドツーエンドのマルチモーダルASRシステムがノイズに対してより堅牢になることを示す。
関連論文リスト
- VHASR: A Multimodal Speech Recognition System With Vision Hotwords [74.94430247036945]
VHASRは、視覚をホットワードとして使用し、モデルの音声認識能力を強化するマルチモーダル音声認識システムである。
VHASRは、画像のキー情報を効果的に利用して、モデルの音声認識能力を高めることができる。
論文 参考訳(メタデータ) (2024-10-01T16:06:02Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - VILAS: Exploring the Effects of Vision and Language Context in Automatic
Speech Recognition [18.19998336526969]
ViLaS(Vision and Language into Automatic Speech Recognition)は、CIF(Continuous Integration-and-fire)機構に基づく新しいマルチモーダルASRモデルである。
視覚と言語を統合することの効果を探るため、中国語と英語の両バージョンでマルチモーダルコンテキストキューを備えたマルチモーダルASRデータセットであるVSDialを開発した。
論文 参考訳(メタデータ) (2023-05-31T16:01:20Z) - Leveraging Modality-specific Representations for Audio-visual Speech
Recognition via Reinforcement Learning [25.743503223389784]
我々は、MSRLと呼ばれる強化学習(RL)ベースのフレームワークを提案する。
タスク固有のメトリクスに直接関連する報酬関数をカスタマイズする。
LRS3データセットによる実験結果から,提案手法は清浄な騒音条件と各種雑音条件の両方で最先端の手法を実現することが示された。
論文 参考訳(メタデータ) (2022-12-10T14:01:54Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - Multimodal Speech Recognition with Unstructured Audio Masking [49.01826387664443]
我々はモデルトレーニング中にRandWordMaskと呼ばれるより現実的なマスキングシナリオをシミュレートする。
Flickr 8K Audio Captions Corpusで行った実験では、マルチモーダルASRが様々な種類のマスキング語を復元するために一般化できることが示されている。
分析の結果,音声信号が破損した場合に,我々のモデルが視覚信号に対応できることが判明した。
論文 参考訳(メタデータ) (2020-10-16T21:49:20Z) - Fine-Grained Grounding for Multimodal Speech Recognition [49.01826387664443]
本稿では,画像の各部分からよりきめ細かい視覚情報を利用するモデルを提案する。
Flickr8K Audio Captions Corpusの実験では、私たちのモデルはグローバルな視覚的特徴を使用するアプローチよりも改善されていることがわかった。
論文 参考訳(メタデータ) (2020-10-05T23:06:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。