論文の概要: Audio-Visual Decision Fusion for WFST-based and seq2seq Models
- arxiv url: http://arxiv.org/abs/2001.10832v1
- Date: Wed, 29 Jan 2020 13:45:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 21:41:50.905636
- Title: Audio-Visual Decision Fusion for WFST-based and seq2seq Models
- Title(参考訳): WFSTとSeq2seqモデルのためのオーディオ・ビジュアル決定融合
- Authors: Rohith Aralikatti, Sharad Roy, Abhinav Thanda, Dilip Kumar Margam,
Pujitha Appan Kandala, Tanay Sharma and Shankar M Venkatesan
- Abstract要約: 雑音下では、音声認識システムは高い単語誤り率(WER)に悩まされる
提案手法は,推測時における音声と視覚のモダリティから情報を融合する新しい手法である。
提案手法は音響のみのWERよりも大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 3.2771898634434997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Under noisy conditions, speech recognition systems suffer from high Word
Error Rates (WER). In such cases, information from the visual modality
comprising the speaker lip movements can help improve the performance. In this
work, we propose novel methods to fuse information from audio and visual
modalities at inference time. This enables us to train the acoustic and visual
models independently. First, we train separate RNN-HMM based acoustic and
visual models. A common WFST generated by taking a special union of the HMM
components is used for decoding using a modified Viterbi algorithm. Second, we
train separate seq2seq acoustic and visual models. The decoding step is
performed simultaneously for both modalities using shallow fusion while
maintaining a common hypothesis beam. We also present results for a novel
seq2seq fusion without the weighing parameter. We present results at varying
SNR and show that our methods give significant improvements over acoustic-only
WER.
- Abstract(参考訳): 雑音条件下では、音声認識システムは高い単語誤り率(WER)に悩まされる。
このような場合、話者唇運動を含む視覚モダリティからの情報が、パフォーマンスの向上に寄与する。
本研究では,音声と視覚のモーダリティから情報を融合する新しい手法を提案する。
これにより、音響モデルと視覚モデルを独立して訓練することができる。
まず、RNN-HMMに基づく音響モデルと視覚モデルを個別に訓練する。
修正されたビタビアルゴリズムを用いて、HMM成分の特別な結合をとることで生成される共通WFSTを用いて復号を行う。
第2に,seq2seq音響モデルと視覚モデルの分離を訓練する。
復号ステップは、共通仮説ビームを維持しながら浅い融合を用いて両モードで同時に実行される。
また,重み付けパラメータを必要とせず,新しいseq2seq融合の結果を示す。
種々のsnrにおいて,提案手法が音響のみに比較して有意な改善をもたらすことを示す。
関連論文リスト
- Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Adaptive re-calibration of channel-wise features for Adversarial Audio
Classification [0.0]
合成音声検出のための注意特徴融合を用いた特徴量の再検討を提案する。
本研究では,End2EndモデルやResnetベースモデルなど,さまざまな検出手法との比較を行った。
また,線形周波数ケプストラム係数 (LFCC) とメル周波数ケプストラム係数 (MFCC) の組み合わせにより,より優れた入力特徴表現が得られることを示した。
論文 参考訳(メタデータ) (2022-10-21T04:21:56Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。