論文の概要: Sequence-to-Sequence Multi-Modal Speech In-Painting
- arxiv url: http://arxiv.org/abs/2406.01321v1
- Date: Mon, 3 Jun 2024 13:42:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:59:31.664193
- Title: Sequence-to-Sequence Multi-Modal Speech In-Painting
- Title(参考訳): シーケンス・ツー・シークエンス マルチモーダル音声のインペインティング
- Authors: Mahsa Kadkhodaei Elyaderani, Shahram Shirani,
- Abstract要約: 本稿では,エンコーダ・デコーダアーキテクチャを用いて,音声信号に視覚情報を利用する新しいシーケンス・ツー・シーケンスモデルを提案する。
提案手法は,音声のみの音声インパインティングモデルより優れ,300msから1500msまでの歪みに対する音声品質と難聴度指標の観点から,近年のマルチモーダル音声インパインパインと同等の結果が得られる。
- 参考スコア(独自算出の注目度): 3.89476785897726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech in-painting is the task of regenerating missing audio contents using reliable context information. Despite various recent studies in multi-modal perception of audio in-painting, there is still a need for an effective infusion of visual and auditory information in speech in-painting. In this paper, we introduce a novel sequence-to-sequence model that leverages the visual information to in-paint audio signals via an encoder-decoder architecture. The encoder plays the role of a lip-reader for facial recordings and the decoder takes both encoder outputs as well as the distorted audio spectrograms to restore the original speech. Our model outperforms an audio-only speech in-painting model and has comparable results with a recent multi-modal speech in-painter in terms of speech quality and intelligibility metrics for distortions of 300 ms to 1500 ms duration, which proves the effectiveness of the introduced multi-modality in speech in-painting.
- Abstract(参考訳): 音声インペインティングは、信頼性のあるコンテキスト情報を用いて、欠落した音声コンテンツを再生するタスクである。
近年,音声のマルチモーダル認識に関する研究が盛んに行われているが,音声における視覚情報や聴覚情報の効果的な注入はいまだに必要である。
本稿では,エンコーダ・デコーダアーキテクチャを用いて,音声信号に視覚情報を利用する新しいシーケンス・ツー・シーケンスモデルを提案する。
エンコーダは、顔記録のためのリップリーダーの役割を担い、デコーダは、エンコーダ出力と歪んだ音声スペクトログラムの両方を取り込み、元の音声を復元する。
提案手法は音声のみの音声インパインティングモデルより優れており,300msから1500msの歪みに対して,近年のマルチモーダル音声インパインターと同等の精度で,マルチモーダル音声インパインティングの有効性を示す。
関連論文リスト
- Robust Multi-Modal Speech In-Painting: A Sequence-to-Sequence Approach [3.89476785897726]
AV特徴を組み込んだシーケンス・ツー・シーケンス(seq2seq)音声イン・ペイントモデルを導入,研究する。
提案手法は,AV音声のインペイント手法を,音声データと視覚データの両方が混在するシナリオに拡張する。
論文 参考訳(メタデータ) (2024-06-02T23:51:43Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Audio-Visual Speech Enhancement with Score-Based Generative Models [22.559617939136505]
本稿では,スコアベース生成モデルを利用した音声・視覚音声強調システムを提案する。
我々は,リップリーディングを微調整した自己超視的学習モデルから得られる音声-視覚的埋め込みを利用する。
実験により,提案した音声・視覚音声強調システムにより,音声の質が向上することが確認された。
論文 参考訳(メタデータ) (2023-06-02T10:43:42Z) - Speech inpainting: Context-based speech synthesis guided by video [29.233167442719676]
本稿では,音声セグメントにおける音声合成の課題である音声-視覚音声の塗装問題に焦点をあてる。
本稿では,視覚的手がかりを生かし,劣化した音声の内容に関する情報を提供する音声-視覚変換器を用いた深層学習モデルを提案する。
また,音声認識のための大規模音声・視覚変換器であるAV-HuBERTで抽出した視覚的特徴が,音声合成にどのように適しているかを示す。
論文 参考訳(メタデータ) (2023-06-01T09:40:47Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Audio-Visual Speech Inpainting with Deep Learning [30.59696039318939]
音声信号に100msから1600msの間隔を印字し、視覚が異なる期間のギャップにもたらす貢献について検討した。
以上の結果から,音声のみの音声塗装手法の性能は,差が大きくなると急速に低下することがわかった。
マルチタスク学習が効果的であることは示していますが、パフォーマンスへの最大の貢献はビジョンによるものです。
論文 参考訳(メタデータ) (2020-10-09T13:23:01Z) - Vocoder-Based Speech Synthesis from Silent Videos [28.94460283719776]
深層学習を用いた話し手のサイレントビデオから音声を合成する方法を提案する。
システムは生のビデオフレームから音響特徴へのマッピング関数を学習し、ボコーダ合成アルゴリズムを用いて音声を再構成する。
論文 参考訳(メタデータ) (2020-04-06T10:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。