Fugu-MT 論文翻訳(概要): Synthesizing Personalized Non-speech Vocalization from Discrete Speech Representations

論文の概要: Synthesizing Personalized Non-speech Vocalization from Discrete Speech Representations

arxiv url: http://arxiv.org/abs/2206.12662v1
Date: Sat, 25 Jun 2022 14:27:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-03 05:39:50.877023
Title: Synthesizing Personalized Non-speech Vocalization from Discrete Speech Representations
Title（参考訳）: 離散音声表現からのパーソナライズされた非音声ボカライゼーション
Authors: Chin-Cheng Hsu
Abstract要約: 非音声発声モデル(NSV)をテキスト音声タスクとして定式化し,その妥当性を検証した。具体的には,NSVにおけるHUBERT音声単位の音声表現性を評価し,話者の音色を制御できることを検証した。
参考スコア（独自算出の注目度）: 3.0016140723286457
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We formulated non-speech vocalization (NSV) modeling as a text-to-speech task and verified its viability. Specifically, we evaluated the phonetic expressivity of HUBERT speech units on NSVs and verified our model's ability to control over speaker timbre even though the training data is speaker few-shot. In addition, we substantiated that the heterogeneity in recording conditions is the major obstacle for NSV modeling. Finally, we discussed five improvements over our method for future research. Audio samples of synthesized NSVs are available on our demo page: https://resemble-ai.github.io/reLaugh.
Abstract（参考訳）: 非音声発声モデル(NSV)をテキスト音声タスクとして定式化し,その実現可能性を確認した。具体的には,NSVにおけるHUBERT音声単位の音声表現性を評価し,学習データが話者数発であっても,話者の音色を制御できることを確認した。さらに,記録条件の不均一性がNSVモデリングの大きな障害であることを確認した。最後に,今後の研究の方法に対する5つの改善点について論じる。合成NSVのオーディオサンプルは、デモページで公開されている。

関連論文リスト

Can we reconstruct a dysarthric voice with the large speech model Parler TTS? [11.547937373256921]
我々は、その状態が始まる前に、変形性スピーカーの声の近似を生成する。我々は,現在最先端の大規模音声モデルであるParler TTSが話者識別を維持しつつ,理解不能な音声を生成することができるかどうかを検討する。
論文参考訳（メタデータ） (2025-06-04T19:23:44Z)
Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文参考訳（メタデータ） (2025-03-19T18:40:45Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
Noise-robust zero-shot text-to-speech synthesis conditioned on self-supervised speech-representation model with adapters [47.75276947690528]
ゼロショットテキスト音声(TTS)法は,話者特性を極めて正確に再現することができる。しかし、この手法は、参照音声が雑音を含む場合、音声合成品質の劣化に悩まされる。本稿では,ノイズロストゼロショットTS法を提案する。
論文参考訳（メタデータ） (2024-01-10T12:21:21Z)
SelfVC: Voice Conversion With Iterative Refinement using Self Transformations [42.97689861071184]
SelfVCは、自己合成例で音声変換モデルを改善するためのトレーニング戦略である。本研究では,音声信号とSSL表現から韻律情報を導出する手法を開発し,合成モデルにおける予測サブモジュールの訓練を行う。我々のフレームワークはテキストを使わずに訓練され、音声の自然性、話者の類似性、合成音声のインテリジェンス性を評価するため、ゼロショット音声変換を実現する。
論文参考訳（メタデータ） (2023-10-14T19:51:17Z)
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文参考訳（メタデータ） (2023-08-14T01:01:19Z)
Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文参考訳（メタデータ） (2023-06-21T05:11:39Z)
Zero-shot text-to-speech synthesis conditioned using self-supervised speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文参考訳（メタデータ） (2023-04-24T10:15:58Z)
Miipher: A Robust Speech Restoration Model Integrating Self-Supervised Speech and Text Representations [51.89856133895233]
音声復元(SR)は、劣化した音声信号を高品質なものに変換するタスクである。本研究では、Miipherと呼ばれるロバストなSRモデルを提案し、新しいSRアプリケーションにMiipherを適用する。 SRモデルを様々な劣化に対して堅牢にするために、入力特徴としてw2v-BERTから抽出した音声表現と、PnG-BERTを介して書き起こしから抽出したテキスト表現を言語条件付けとして使用する。
論文参考訳（メタデータ） (2023-03-03T01:57:16Z)
Time out of Mind: Generating Rate of Speech conditioned on emotion and speaker [0.0]
感情によって条件付けされたGANをトレーニングし、与えられた入力テキストに価値ある長さを生成する。これらの単語長は相対的中性音声であり、テキスト音声システムに提供され、より表現力のある音声を生成する。我々は,中性音声に対する客観的尺度の精度向上と,アウト・オブ・ボックスモデルと比較した場合の幸福音声に対する時間アライメントの改善を実現した。
論文参考訳（メタデータ） (2023-01-29T02:58:01Z)
Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文参考訳（メタデータ） (2022-11-17T07:17:24Z)
Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文参考訳（メタデータ） (2022-06-06T11:51:22Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。