論文の概要: UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation
- arxiv url: http://arxiv.org/abs/2506.04134v1
- Date: Wed, 04 Jun 2025 16:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.465222
- Title: UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation
- Title(参考訳): UniCUE:中国語符号化音声音声合成のための統一認識・生成フレームワーク
- Authors: Jinting Wang, Shan Yang, Li Liu,
- Abstract要約: Cued Speech (CS)は、手話による唇読取を強化し、難聴者に対する正確な音声認識支援を提供する。
音声合成タスクは、聴覚障害者のCS視覚表現(CSビデオ)を理解可能な音声信号に変換することを目的としている。
- 参考スコア(独自算出の注目度): 13.690650796414058
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cued Speech (CS) enhances lipreading through hand coding, providing precise speech perception support for the hearing-impaired. CS Video-to-Speech generation (CSV2S) task aims to convert the CS visual expressions (CS videos) of hearing-impaired individuals into comprehensible speech signals. Direct generation of speech from CS video (called single CSV2S) yields poor performance due to insufficient CS data. Current research mostly focuses on CS Recognition (CSR), which convert video content into linguistic text. Based on this, one straightforward way of CSV2S is to combine CSR with a Text-to-Speech system. This combined architecture relies on text as an intermediate medium for stepwise cross-modal alignment, which may lead to error propagation and temporal misalignment between speech and video dynamics. To address these challenges, we propose a novel approach that directly generates speech from CS videos without relying on intermediate text. Building upon this, we propose UniCUE, the first unified framework for CSV2S, whose core innovation lies in the integration of the CSR task that provides fine-grained visual-semantic information to facilitate speech generation from CS videos. More precisely, (1) a novel fine-grained semantic alignment pool to ensure precise mapping between visual features and speech contents; (2) a VisioPhonetic adapter to bridge cross-task representations, ensuring seamless compatibility between two distinct tasks (i.e., CSV2S and CSR); (3) a pose-aware visual processor is introduced to enhance fine-grained spatiotemporal correlations between lip and hand movements in CS video. Experiments on our new established Chinese CS dataset (14 cuers1: 8 hearing-impaired and 6 normal-hearing) show that our UniCUE significantly reduces Word Error Rate by 78.3% and improves lip-speech synchronization by 32% compared to the single CSV2S.
- Abstract(参考訳): Cued Speech (CS)は、手話による唇読取を強化し、難聴者に対する正確な音声認識支援を提供する。
CSビデオ音声生成(CSV2S)タスクは、聴覚障害者のCS視覚表現(CSビデオ)を理解可能な音声信号に変換することを目的としている。
CSビデオ(シングルCSV2S)からの音声の直接生成は、CSデータ不足により性能が低下する。
現在の研究は主に、映像コンテンツを言語テキストに変換するCS認識(CSR)に焦点を当てている。
これに基づいて、CSV2Sの直接的な方法は、CSRとText-to-Speechシステムを組み合わせることである。
この組み合わせアーキテクチャは、テキストを段階的にクロスモーダルアライメントの中間媒体として依存しており、これは誤りの伝播と音声とビデオのダイナミックス間の時間的ミスアライメントにつながる可能性がある。
これらの課題に対処するため,中間テキストに頼ることなくCSビデオから直接音声を生成する手法を提案する。
そこで我々は,CSビデオからの音声生成を容易にするために,CSRタスクの統合が中心となる,CSV2Sの最初の統合フレームワークであるUniCUEを提案する。
より正確には、(1)視覚的特徴と音声内容の正確なマッピングを保証する新しいセマンティックアライメントプール、(2)クロスタスク表現をブリッジするためのVisioPhoneticアダプタ、(2)2つの異なるタスク(例えばCSV2SとCSR)間のシームレスな互換性を確保すること、(3)ポーズ対応ビジュアルプロセッサを導入して、CSビデオにおける唇と手の動きの微細な時空間的相関を強化する。
新たに確立した中国語CSデータセット(14 cuers1: 8 cuers1: 8 の聴力障害と6 の正常聴力障害)による実験の結果,UniCUE は単語誤り率を78.3% 削減し,単一 CSV2S と比較して唇音声同期を32% 改善した。
関連論文リスト
- Bridge to Non-Barrier Communication: Gloss-Prompted Fine-grained Cued Speech Gesture Generation with Diffusion Model [11.160802635050866]
Cued Speech (CS) は、唇読みと手書きコードを統合する高度な視覚音声符号化システムである。
既存のCS生成手法は脆弱であり、テンプレートベースの統計モデルにより性能が低下する傾向にある。
我々はGross-prompted Diffusion-based CS Gesture Generation framework(GrossDiff)を提案する。
論文 参考訳(メタデータ) (2024-04-30T05:54:40Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Cross-Utterance Conditioned VAE for Speech Generation [27.5887600344053]
本稿では,CUC-VAE S2フレームワークを用いて,韻律の強化と自然な音声生成を実現する。
CUC-VAE TTS for text-to-speech と CUC-VAE SE for speech editor の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-08T06:48:41Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup
for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。
MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文 参考訳(メタデータ) (2023-03-09T14:58:29Z) - ReVISE: Self-Supervised Speech Resynthesis with Visual Input for
Universal and Generalized Speech Enhancement [40.29155338515071]
ReVISEは、Wildビデオ音声合成のための最初の高品質なモデルである。
単一のモデルで全てのLRS3オーディオ視覚強調タスクにおいて優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-21T21:36:52Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic
Voice Over [68.22776506861872]
AVO(Automatic Voice Over)と呼ばれるサイレント事前録音ビデオと同期して音声を合成する新しいタスクを定式化する。
AVOの自然な解決策は、ビデオ中のリップシーケンスの時間的進行に音声レンダリングを条件付けることである。
そこで本稿では,視覚入力を前提とした新しい音声合成モデルVisualTTSを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。