Fugu-MT 論文翻訳(概要): Let There Be Sound: Reconstructing High Quality Speech from Silent Videos

論文の概要: Let There Be Sound: Reconstructing High Quality Speech from Silent Videos

arxiv url: http://arxiv.org/abs/2308.15256v2
Date: Thu, 4 Jan 2024 11:10:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-05 17:19:14.119875
Title: Let There Be Sound: Reconstructing High Quality Speech from Silent Videos
Title（参考訳）: let there be sound: ハイクオリティな音声をサイレントビデオから再構築する
Authors: Ji-Hoon Kim, Jaehun Kim, Joon Son Chung
Abstract要約: この研究の目的は、唇の動きだけで高品質な音声を再構築することである。音声合成システムにおける重要な課題は、一対多のマッピングである。生成品質を大幅に向上させる新しい音声合成システムを提案する。
参考スコア（独自算出の注目度）: 34.306490673301184
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The goal of this work is to reconstruct high quality speech from lip motions alone, a task also known as lip-to-speech. A key challenge of lip-to-speech systems is the one-to-many mapping caused by (1) the existence of homophenes and (2) multiple speech variations, resulting in a mispronounced and over-smoothed speech. In this paper, we propose a novel lip-to-speech system that significantly improves the generation quality by alleviating the one-to-many mapping problem from multiple perspectives. Specifically, we incorporate (1) self-supervised speech representations to disambiguate homophenes, and (2) acoustic variance information to model diverse speech styles. Additionally, to better solve the aforementioned problem, we employ a flow based post-net which captures and refines the details of the generated speech. We perform extensive experiments on two datasets, and demonstrate that our method achieves the generation quality close to that of real human utterance, outperforming existing methods in terms of speech naturalness and intelligibility by a large margin. Synthesised samples are available at our demo page: https://mm.kaist.ac.kr/projects/LTBS.
Abstract（参考訳）: この研究の目的は、唇の動きだけで高品質な音声を再構築することである。音声合成システムにおける重要な課題は,(1)ホモフェーンの存在,(2)複数の発声変化に起因する一対多のマッピングであり,誤発音と過度な発声が生じる。本稿では,複数視点から一対多のマッピング問題を緩和することにより,生成品質を著しく向上する新しい音声合成システムを提案する。具体的には,(1)ホモフェーンを曖昧にするための自己教師型音声表現,(2)多様な音声スタイルをモデル化するための音響的分散情報を含む。さらに、上記の問題を解決するために、生成した音声の詳細をキャプチャし、洗練するフローベースのpost-netを採用する。 2つのデータセットについて広範な実験を行い、本手法が実際の人間の発話に近い生成品質を達成することを実証し、音声の自然性や知性の観点から、既存の手法を大差で上回っていることを示す。合成されたサンプルは、デモページで利用可能です。

関連論文リスト

What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。 LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。 SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文参考訳（メタデータ） (2025-06-14T15:26:31Z)
Robust Multi-Modal Speech In-Painting: A Sequence-to-Sequence Approach [3.89476785897726]
AV特徴を組み込んだシーケンス・ツー・シーケンス(seq2seq)音声イン・ペイントモデルを導入,研究する。提案手法は,AV音声のインペイント手法を,音声データと視覚データの両方が混在するシナリオに拡張する。
論文参考訳（メタデータ） (2024-06-02T23:51:43Z)
Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文参考訳（メタデータ） (2024-03-02T04:07:24Z)
Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文参考訳（メタデータ） (2023-09-09T14:52:39Z)
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文参考訳（メタデータ） (2023-08-14T01:01:19Z)
NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。 NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文参考訳（メタデータ） (2023-04-18T16:31:59Z)
The Ability of Self-Supervised Speech Models for Audio Representations [53.19715501273934]
自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
論文参考訳（メタデータ） (2022-09-26T15:21:06Z)
Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild [44.92322575562816]
本稿では,その変動の中で唇と音声列を関連付けることを学習するVAE-GANアーキテクチャを提案する。私たちのジェネレータは、あらゆる人の唇のシーケンスに対して、あらゆる声で音声を合成することを学びます。我々は、アーキテクチャの異なるモジュールの効果を分析するために、多数のアブレーション研究を行っている。
論文参考訳（メタデータ） (2022-09-01T17:50:29Z)
TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。 TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文参考訳（メタデータ） (2022-05-25T06:34:14Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis [37.37319356008348]
本研究は,話者の唇の動きのみを与えられた自然な音声を生成することを学ぶことを目的として,音声合成における唇の課題を探求する。我々は,制約のない大規模な語彙設定において,個々の話者に対して,正確な唇配列から音声マッピングへの学習に焦点をあてる。そこで本稿では, 音声合成の精度, 自然な唇を実現するために, 鍵となる設計選択を用いた新しい手法を提案する。
論文参考訳（メタデータ） (2020-05-17T10:29:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。