論文の概要: Robust Multi-Modal Speech In-Painting: A Sequence-to-Sequence Approach
- arxiv url: http://arxiv.org/abs/2406.00901v1
- Date: Sun, 2 Jun 2024 23:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 02:56:53.353108
- Title: Robust Multi-Modal Speech In-Painting: A Sequence-to-Sequence Approach
- Title(参考訳): ロバストなマルチモーダル音声イン・パインティング:シーケンス・ツー・シーケンス・アプローチ
- Authors: Mahsa Kadkhodaei Elyaderani, Shahram Shirani,
- Abstract要約: AV特徴を組み込んだシーケンス・ツー・シーケンス(seq2seq)音声イン・ペイントモデルを導入,研究する。
提案手法は,AV音声のインペイント手法を,音声データと視覚データの両方が混在するシナリオに拡張する。
- 参考スコア(独自算出の注目度): 3.89476785897726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The process of reconstructing missing parts of speech audio from context is called speech in-painting. Human perception of speech is inherently multi-modal, involving both audio and visual (AV) cues. In this paper, we introduce and study a sequence-to-sequence (seq2seq) speech in-painting model that incorporates AV features. Our approach extends AV speech in-painting techniques to scenarios where both audio and visual data may be jointly corrupted. To achieve this, we employ a multi-modal training paradigm that boosts the robustness of our model across various conditions involving acoustic and visual distortions. This makes our distortion-aware model a plausible solution for real-world challenging environments. We compare our method with existing transformer-based and recurrent neural network-based models, which attempt to reconstruct missing speech gaps ranging from a few milliseconds to over a second. Our experimental results demonstrate that our novel seq2seq architecture outperforms the state-of-the-art transformer solution by 38.8% in terms of enhancing speech quality and 7.14% in terms of improving speech intelligibility. We exploit a multi-task learning framework that simultaneously performs lip-reading (transcribing video components to text) while reconstructing missing parts of the associated speech.
- Abstract(参考訳): 音声音声の欠落部分を文脈から再構築する過程を音声インペイントと呼ぶ。
人間の音声知覚は本質的にマルチモーダルであり、音声と視覚の両方の手がかりを含んでいる。
本稿では,AV特徴を組み込んだシーケンシャル・ツー・シーケンス(seq2seq)音声イン・ペインティング・モデルを提案し,研究する。
提案手法は,AV音声のインペイント手法を,音声データと視覚データの両方が混在するシナリオに拡張する。
これを実現するために、音響的および視覚的歪みを含む様々な条件において、モデルの堅牢性を高めるマルチモーダルトレーニングパラダイムを用いる。
これにより、我々の歪み認識モデルは、現実の挑戦的な環境に対して、もっとも有効なソリューションとなります。
提案手法を,数ミリ秒から1秒以上の音声ギャップを再構築する,既存のトランスフォーマーベースおよびリカレントニューラルネットワークベースモデルと比較した。
我々の新しいセク2セックアーキテクチャは、音声品質の向上と7.14%の音声認識能力向上の観点から、最先端のトランスフォーマーソリューションよりも38.8%向上していることを示す。
本研究では,音声の欠落部分を再構築しながら,同時に唇読解(動画コンポーネントをテキストに書き起こす)を行うマルチタスク学習フレームワークを利用する。
関連論文リスト
- Sequence-to-Sequence Multi-Modal Speech In-Painting [3.89476785897726]
本稿では,エンコーダ・デコーダアーキテクチャを用いて,音声信号に視覚情報を利用する新しいシーケンス・ツー・シーケンスモデルを提案する。
提案手法は,音声のみの音声インパインティングモデルより優れ,300msから1500msまでの歪みに対する音声品質と難聴度指標の観点から,近年のマルチモーダル音声インパインパインと同等の結果が得られる。
論文 参考訳(メタデータ) (2024-06-03T13:42:10Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文 参考訳(メタデータ) (2020-12-14T10:50:05Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。