論文の概要: SynesLM: A Unified Approach for Audio-visual Speech Recognition and Translation via Language Model and Synthetic Data
- arxiv url: http://arxiv.org/abs/2408.00624v1
- Date: Thu, 1 Aug 2024 15:09:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 20:16:43.414764
- Title: SynesLM: A Unified Approach for Audio-visual Speech Recognition and Translation via Language Model and Synthetic Data
- Title(参考訳): SynesLM: 言語モデルと合成データを用いた音声視覚音声認識と翻訳のための統一的アプローチ
- Authors: Yichen Lu, Jiaqi Song, Xuankai Chang, Hengwei Bian, Soumi Maiti, Shinji Watanabe,
- Abstract要約: 我々は3つのマルチモーダル言語理解タスクを実行できる統一モデルであるSynesLMを提案する。
ゼロショットのAV-ASRでは、SynesLMはワードエラー率(WER)を43.4%から39.4%に下げることでSOTAのパフォーマンスを達成した。
VSTとVMTの成績は,VSTの37.2からBLEUスコアを43.5,VMTの54.4から54.8に改善した。
- 参考スコア(独自算出の注目度): 42.48380346580101
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we present SynesLM, an unified model which can perform three multimodal language understanding tasks: audio-visual automatic speech recognition(AV-ASR) and visual-aided speech/machine translation(VST/VMT). Unlike previous research that focused on lip motion as visual cues for speech signals, our work explores more general visual information within entire frames, such as objects and actions. Additionally, we use synthetic image data to enhance the correlation between image and speech data. We benchmark SynesLM against the How2 dataset, demonstrating performance on par with state-of-the-art (SOTA) models dedicated to AV-ASR while maintaining our multitasking framework. Remarkably, for zero-shot AV-ASR, SynesLM achieved SOTA performance by lowering the Word Error Rate (WER) from 43.4% to 39.4% on the VisSpeech Dataset. Furthermore, our results in VST and VMT outperform the previous results, improving the BLEU score to 43.5 from 37.2 for VST, and to 54.8 from 54.4 for VMT.
- Abstract(参考訳): 本稿では,音声視覚自動音声認識(AV-ASR)と視覚支援音声・機械翻訳(VST/VMT)の3つのマルチモーダル言語理解タスクを実行できる統一モデルであるSynesLMを提案する。
音声信号の視覚的手がかりとしての唇の動きに焦点を当てた以前の研究とは異なり、我々の研究は、物体や行動など、フレーム全体のより一般的な視覚情報を探究する。
さらに、合成画像データを用いて、画像と音声データの相関性を高める。
我々は、SynesLMをHow2データセットと比較し、マルチタスクフレームワークを維持しながら、AV-ASR専用のSOTAモデルと同等のパフォーマンスを示す。
注目すべきは、ゼロショットのAV-ASRでは、SynesLMはワードエラー率(WER)をVisSpeechデータセットで43.4%から39.4%に下げることでSOTAのパフォーマンスを達成したことである。
さらに, VSTとVMTでは, BLEUスコアが37.2から43.5, VMTでは54.4から54.8に向上した。
関連論文リスト
- CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - SynthVSR: Scaling Up Visual Speech Recognition With Synthetic
Supervision [60.54020550732634]
視覚音声認識(VSR)における合成視覚データの利用の可能性について検討する。
鍵となるアイデアは、入力音声に条件付き唇の動きを生成する音声駆動の唇アニメーションモデルを活用することである。
我々は,最大公的なVSRベンチマークであるLip Reading Sentences 3 (LRS3)に対するアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-03-30T07:43:27Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Learning Audio-Visual Speech Representation by Masked Multimodal Cluster
Prediction [26.27172574676212]
音声の映像記録には、相関した音声情報と視覚情報が含まれる。
本稿では,音声視覚音声の自己教師型表現学習フレームワークであるAudio-Visual Hidden Unit BERT(AV-HuBERT)を紹介する。
AV-HuBERTは、唇読解と自動音声認識の両方に有効な強力な音声・視覚音声表現を学習する。
論文 参考訳(メタデータ) (2022-01-05T17:40:45Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。