論文の概要: Advancing NAM-to-Speech Conversion with Novel Methods and the MultiNAM Dataset
- arxiv url: http://arxiv.org/abs/2412.18839v1
- Date: Wed, 25 Dec 2024 08:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:24:52.446819
- Title: Advancing NAM-to-Speech Conversion with Novel Methods and the MultiNAM Dataset
- Title(参考訳): 新しい手法とマルチNAMデータセットによるNAM-to-Speech変換の高速化
- Authors: Neil Shah, Shirish Karande, Vineet Gandhi,
- Abstract要約: 現在のNon-Audible Murmur (NAM)-to-speech技術は、ペアのささやきの音声をシミュレートするために音声のクローニングに依存している。
我々は,音素レベルのアライメントをペアのささやきやテキストから学習することに集中し,テキスト・トゥ・スピーチ(TTS)システムを用いて地情をシミュレートする。
我々はMultiNAMデータセットを7.96ドル以上のペアNAM、ささやき、ビデオ、テキストデータを2つのスピーカーからリリースし、このデータセットのすべてのメソッドをベンチマークします。
- 参考スコア(独自算出の注目度): 24.943609458024596
- License:
- Abstract: Current Non-Audible Murmur (NAM)-to-speech techniques rely on voice cloning to simulate ground-truth speech from paired whispers. However, the simulated speech often lacks intelligibility and fails to generalize well across different speakers. To address this issue, we focus on learning phoneme-level alignments from paired whispers and text and employ a Text-to-Speech (TTS) system to simulate the ground-truth. To reduce dependence on whispers, we learn phoneme alignments directly from NAMs, though the quality is constrained by the available training data. To further mitigate reliance on NAM/whisper data for ground-truth simulation, we propose incorporating the lip modality to infer speech and introduce a novel diffusion-based method that leverages recent advancements in lip-to-speech technology. Additionally, we release the MultiNAM dataset with over $7.96$ hours of paired NAM, whisper, video, and text data from two speakers and benchmark all methods on this dataset. Speech samples and the dataset are available at \url{https://diff-nam.github.io/DiffNAM/}
- Abstract(参考訳): 現在のNon-Audible Murmur (NAM)-to-speech技術は、ペアのささやきの音声をシミュレートするために音声のクローニングに依存している。
しかし、シミュレートされた音声は、しばしば知性に欠け、異なる話者間でうまく一般化できない。
この問題に対処するために,音素レベルのアライメントをペアのささやきとテキストから学習することに注力し,テキスト・トゥ・スペーチ(TTS)システムを用いて基礎構造をシミュレートする。
音素アライメントをNAMから直接学習するが,音素アライメントの質はトレーニングデータに制約される。
地中構造シミュレーションにおけるNAM/Whisperデータへの依存をさらに緩和するため,音声の推測にリップモダリティを取り入れ,近年の音声合成技術の発展を生かした拡散に基づく新しい手法を提案する。
さらに、MultiNAMデータセットは、ペア化されたNAM、ささやき、ビデオ、テキストデータを2つのスピーカーからリリースし、このデータセットのすべてのメソッドをベンチマークします。
音声サンプルとデータセットは \url{https://diff-nam.github.io/DiffNAM/} で入手できる。
関連論文リスト
- Towards Improving NAM-to-Speech Synthesis Intelligibility using Self-Supervised Speech Models [24.943609458024596]
そこで本研究では,音声変換タスクにおける非可聴型Murmur(NAM)の信頼性を向上するための新しい手法を提案する。
本手法は, 音声合成の自己超越と音声合成に頼っている。
本手法は,Mel-Cepstral Distortion(MCD)測定値の29.08%の改善により,現在のSOTA(State-of-the-art)を上回った。
論文 参考訳(メタデータ) (2024-07-26T06:44:01Z) - Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文 参考訳(メタデータ) (2023-10-12T20:53:39Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。