Fugu-MT 論文翻訳(概要): Advancing NAM-to-Speech Conversion with Novel Methods and the MultiNAM Dataset

論文の概要: Advancing NAM-to-Speech Conversion with Novel Methods and the MultiNAM Dataset

arxiv url: http://arxiv.org/abs/2412.18839v1
Date: Wed, 25 Dec 2024 08:57:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 21:44:04.96543
Title: Advancing NAM-to-Speech Conversion with Novel Methods and the MultiNAM Dataset
Title（参考訳）: 新しい手法とマルチNAMデータセットによるNAM-to-Speech変換の高速化
Authors: Neil Shah, Shirish Karande, Vineet Gandhi,
Abstract要約: 現在のNon-Audible Murmur (NAM)-to-speech技術は、ペアのささやきの音声をシミュレートするために音声のクローニングに依存している。我々は,音素レベルのアライメントをペアのささやきやテキストから学習することに集中し,テキスト・トゥ・スピーチ(TTS)システムを用いて地情をシミュレートする。我々はMultiNAMデータセットを7.96ドル以上のペアNAM、ささやき、ビデオ、テキストデータを2つのスピーカーからリリースし、このデータセットのすべてのメソッドをベンチマークします。
参考スコア（独自算出の注目度）: 24.943609458024596
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current Non-Audible Murmur (NAM)-to-speech techniques rely on voice cloning to simulate ground-truth speech from paired whispers. However, the simulated speech often lacks intelligibility and fails to generalize well across different speakers. To address this issue, we focus on learning phoneme-level alignments from paired whispers and text and employ a Text-to-Speech (TTS) system to simulate the ground-truth. To reduce dependence on whispers, we learn phoneme alignments directly from NAMs, though the quality is constrained by the available training data. To further mitigate reliance on NAM/whisper data for ground-truth simulation, we propose incorporating the lip modality to infer speech and introduce a novel diffusion-based method that leverages recent advancements in lip-to-speech technology. Additionally, we release the MultiNAM dataset with over $7.96$ hours of paired NAM, whisper, video, and text data from two speakers and benchmark all methods on this dataset. Speech samples and the dataset are available at \url{https://diff-nam.github.io/DiffNAM/}
Abstract（参考訳）: 現在のNon-Audible Murmur (NAM)-to-speech技術は、ペアのささやきの音声をシミュレートするために音声のクローニングに依存している。しかし、シミュレートされた音声は、しばしば知性に欠け、異なる話者間でうまく一般化できない。この問題に対処するために,音素レベルのアライメントをペアのささやきとテキストから学習することに注力し,テキスト・トゥ・スペーチ(TTS)システムを用いて基礎構造をシミュレートする。音素アライメントをNAMから直接学習するが,音素アライメントの質はトレーニングデータに制約される。地中構造シミュレーションにおけるNAM/Whisperデータへの依存をさらに緩和するため,音声の推測にリップモダリティを取り入れ,近年の音声合成技術の発展を生かした拡散に基づく新しい手法を提案する。さらに、MultiNAMデータセットは、ペア化されたNAM、ささやき、ビデオ、テキストデータを2つのスピーカーからリリースし、このデータセットのすべてのメソッドをベンチマークします。音声サンプルとデータセットは \url{https://diff-nam.github.io/DiffNAM/} で入手できる。

関連論文リスト

Scheduled Interleaved Speech-Text Training for Speech-to-Speech Translation with LLMs [41.088390995105826]
音声音声翻訳 (S2ST) は大規模言語モデル (LLM) で進歩している。 LLMはテキストのみのデータに基づいて訓練され、音声から音声への限られたデータで、それらに適応するための課題が提示される。本研究では,本研究における音声教育の予定について述べる。
論文参考訳（メタデータ） (2025-06-12T02:24:44Z)
Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
テキストなしの音声言語モデルは、数十秒を超える可読な音声を生成するのに苦労する。我々は、長音の音声から学習し、サンプルする最初の音声言語モデルであるSpeechSSMを導出する。 SpeechSSMは線形時間列モデリングの最近の進歩を活用し、コヒーレンスと効率性において現在のトランスフォーマー音声LMを大幅に上回っている。
論文参考訳（メタデータ） (2024-12-24T18:56:46Z)
Distilling an End-to-End Voice Assistant Without Instruction Training Data [53.524071162124464]
Distilled Voice Assistant (DiVA)は、質問応答、分類、翻訳を一般化する。 Qwen 2 Audioのような最先端のモデルと比較すると,DiVAはユーザの好みによく適合し,72%の勝利率を達成した。
論文参考訳（メタデータ） (2024-10-03T17:04:48Z)
Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。本稿では,近年のSpeechLM構築手法について概観する。
論文参考訳（メタデータ） (2024-10-01T21:48:12Z)
Towards Improving NAM-to-Speech Synthesis Intelligibility using Self-Supervised Speech Models [24.943609458024596]
そこで本研究では,音声変換タスクにおける非可聴型Murmur(NAM)の信頼性を向上するための新しい手法を提案する。本手法は, 音声合成の自己超越と音声合成に頼っている。本手法は,Mel-Cepstral Distortion(MCD)測定値の29.08%の改善により,現在のSOTA(State-of-the-art)を上回った。
論文参考訳（メタデータ） (2024-07-26T06:44:01Z)
Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文参考訳（メタデータ） (2024-03-02T04:07:24Z)
SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文参考訳（メタデータ） (2022-09-30T09:12:10Z)
Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-27T11:24:40Z)
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文参考訳（メタデータ） (2022-04-06T17:59:22Z)
Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文参考訳（メタデータ） (2021-12-15T18:56:35Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。