論文の概要: RESOUND: Speech Reconstruction from Silent Videos via Acoustic-Semantic Decomposed Modeling
- arxiv url: http://arxiv.org/abs/2505.22024v1
- Date: Wed, 28 May 2025 06:46:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.449775
- Title: RESOUND: Speech Reconstruction from Silent Videos via Acoustic-Semantic Decomposed Modeling
- Title(参考訳): 音響意味分解モデルによるサイレントビデオからの音声再構成
- Authors: Long-Khanh Pham, Thanh V. T. Tran, Minh-Tan Pham, Van Nguyen,
- Abstract要約: 視覚的手がかりから音声を再構成するL2S合成は、精度と自然性の課題に直面している。
サイレント・トーキング・フェイス・ビデオから可知で表現力のある音声を生成する新しいL2SシステムRESOUNDを提案する。
- 参考スコア(独自算出の注目度): 3.0550455962720764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lip-to-speech (L2S) synthesis, which reconstructs speech from visual cues, faces challenges in accuracy and naturalness due to limited supervision in capturing linguistic content, accents, and prosody. In this paper, we propose RESOUND, a novel L2S system that generates intelligible and expressive speech from silent talking face videos. Leveraging source-filter theory, our method involves two components: an acoustic path to predict prosody and a semantic path to extract linguistic features. This separation simplifies learning, allowing independent optimization of each representation. Additionally, we enhance performance by integrating speech units, a proven unsupervised speech representation technique, into waveform generation alongside mel-spectrograms. This allows RESOUND to synthesize prosodic speech while preserving content and speaker identity. Experiments conducted on two standard L2S benchmarks confirm the effectiveness of the proposed method across various metrics.
- Abstract(参考訳): 視覚的手がかりから音声を再構成するL2S合成は、言語内容、アクセント、韻律を捉えることの監督が限られているため、正確さと自然さの課題に直面している。
本稿では,サイレント・トーキング・ビデオから可知で表現力のある音声を生成する新しいL2SシステムRESOUNDを提案する。
本手法は,韻律を予測するための音響経路と,言語的特徴を抽出する意味経路の2つの要素を含む。
この分離は学習を単純化し、各表現の独立的な最適化を可能にする。
さらに,教師なし音声表現手法である音声ユニットをメルスペクトルと共に波形生成に組み込むことにより,性能を向上させる。
これにより、RESOUNDは内容と話者のアイデンティティを保ちながら韻律音声を合成できる。
2つの標準L2Sベンチマーク実験により,提案手法の有効性が検証された。
関連論文リスト
- Revival with Voice: Multi-modal Controllable Text-to-Speech Synthesis [52.25128289155576]
本稿では,顔画像から音声を生成するマルチモーダル制御可能なテキスト音声合成(TTS)について検討する。
顔駆動型TSシステムにおける以下の3つの課題を軽減することを目的としている。
顔駆動音声合成におけるモデルの有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-05-25T04:43:17Z) - GOAT-TTS: Expressive and Realistic Speech Generation via A Dual-Branch LLM [42.93855899824886]
新たな2分岐ArchiTecture(GOAT-TTS)を用いた音声合成手法を提案する。
GOAT-TTSは音声エンコーダとプロジェクタを組み合わせて連続的な音響埋め込みをキャプチャし、パラ言語的特徴(言語、音色、感情)と意味的テキスト表現の双方向の相関を可能にする。
実験の結果,GOAT-TTSは最先端のTSモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-15T01:44:56Z) - V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow [57.51550409392103]
本稿では,V2SFlowについて紹介する。V2SFlowは,サイレント・トーキング・フェイス・ビデオから直接自然で分かりやすい音声を生成するために設計された,新しいビデオ音声合成(V2S)フレームワークである。
これらの課題に対処するため、音声信号を管理可能な部分空間に分解し、それぞれ異なる音声属性を表現し、視覚入力から直接予測する。
これらの予測属性からコヒーレントでリアルな音声を生成するために,Transformerアーキテクチャ上に構築された正流整合デコーダを用いる。
論文 参考訳(メタデータ) (2024-11-29T05:55:20Z) - Intelligible Lip-to-Speech Synthesis with Speech Units [32.65865343643458]
サイレントな唇運動ビデオから理解不能な音声を合成するための新しいL2Sフレームワークを提案する。
本稿では,音声単位を参照して,ぼやけやうるさいメル・スペクトログラムからでも明瞭な波形を生成できるマルチインプット・ボコーダを提案する。
論文 参考訳(メタデータ) (2023-05-31T07:17:32Z) - Zero-shot personalized lip-to-speech synthesis with face image based
voice control [41.17483247506426]
顔画像から対応する音声を予測するLip-to-Speech(Lip2Speech)合成は、様々なモデルや訓練戦略で大きく進歩している。
顔画像が話者の身元を制御するゼロショットパーソナライズされたLip2Speech合成法を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:37:29Z) - Lip-to-Speech Synthesis in the Wild with Multi-task Learning [32.65865343643458]
野生環境においても入力された唇の動きから正しい内容で音声を再構成できる強力なLip2Speech法を開発した。
音響特徴再構成損失の単語表現不足を補うために,マルチモーダル・インスペクション(テキストと音声)を用いてモデルを指導するマルチタスク学習を設計する。
論文 参考訳(メタデータ) (2023-02-17T12:31:26Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文 参考訳(メタデータ) (2021-04-01T09:20:33Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。