Fugu-MT 論文翻訳(概要): SpeechPainter: Text-conditioned Speech Inpainting

論文の概要: SpeechPainter: Text-conditioned Speech Inpainting

arxiv url: http://arxiv.org/abs/2202.07273v1
Date: Tue, 15 Feb 2022 09:33:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-16 16:04:10.536843
Title: SpeechPainter: Text-conditioned Speech Inpainting
Title（参考訳）: SpeechPainter: テキストコンディショニング
Authors: Zal\'an Borsos, Matt Sharifi, Marco Tagliasacchi
Abstract要約: 本稿では,音声サンプルの最大1秒間を補助的なテキスト入力を利用して埋め込むモデルであるSpeechPainterを提案する。本研究では, 話者識別, 韻律, 記録環境条件を維持しながら, 適切な内容で音声を表現できることを実証する。
参考スコア（独自算出の注目度）: 12.027499164122492
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose SpeechPainter, a model for filling in gaps of up to one second in speech samples by leveraging an auxiliary textual input. We demonstrate that the model performs speech inpainting with the appropriate content, while maintaining speaker identity, prosody and recording environment conditions, and generalizing to unseen speakers. Our approach significantly outperforms baselines constructed using adaptive TTS, as judged by human raters in side-by-side preference and MOS tests.
Abstract（参考訳）: 本稿では,音声サンプルの最大1秒間を補助的なテキスト入力を利用して埋め込むモデルであるSpeechPainterを提案する。本モデルでは, 話者の同一性, 韻律, 記録環境条件を維持しながら, 適切な内容の音声認識を行い, 未認識話者に一般化できることを実証する。提案手法は, 適応型TSを用いて構築したベースラインよりも有意に優れており, 人為的な評価とMOSテストで評価された。

関連論文リスト

Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文参考訳（メタデータ） (2025-03-19T18:40:45Z)
Incorporating Talker Identity Aids With Improving Speech Recognition in Adversarial Environments [0.2916558661202724]
音声認識と話者識別を共同で行うトランスフォーマーモデルを開発した。クリーンな条件下では,ジョイントモデルがWhisperと相容れない性能を示す。以上の結果から,音声認識と音声表現の統合により,対向条件下ではより堅牢なモデルが得られる可能性が示唆された。
論文参考訳（メタデータ） (2024-10-07T18:39:59Z)
DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文参考訳（メタデータ） (2024-06-27T03:52:35Z)
EmphAssess : a Prosodic Benchmark on Assessing Emphasis Transfer in Speech-to-Speech Models [25.683827726880594]
EmphAssessは,音声合成モデルの韻律強調を符号化し再現する能力を評価するためのベンチマークである。音声合成と音声合成の2つの課題に適用する。どちらの場合も、ベンチマークは、モデルが音声入力の強調を符号化し、出力で正確に再現する能力を評価する。評価パイプラインの一部として、フレームや単語レベルで強調を分類する新しいモデルであるEmphaClassを紹介する。
論文参考訳（メタデータ） (2023-12-21T17:47:33Z)
uSee: Unified Speech Enhancement and Editing with Conditional Diffusion Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2023-10-02T04:36:39Z)
Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文参考訳（メタデータ） (2023-06-28T08:22:53Z)
Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文参考訳（メタデータ） (2023-06-21T05:11:39Z)
Zero-shot text-to-speech synthesis conditioned using self-supervised speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文参考訳（メタデータ） (2023-04-24T10:15:58Z)
Fine-grained Noise Control for Multispeaker Speech Synthesis [3.449700218265025]
テキスト音声モデル(TTS)は、典型的には、内容、話者、韻律などの音声属性を非絡み合い表現に分解する。近年の課題は, 音響条件を的確にモデル化することであり, 主要な音声要因を解消することである。
論文参考訳（メタデータ） (2022-04-11T13:13:55Z)
Facetron: Multi-speaker Face-to-Speech Model based on Cross-modal Latent Representations [22.14238843571225]
個人の顔の映像を条件付けして、話者固有の音声波形を合成する効果的な方法を提案する。唇読解モデルを用いて唇の動きから言語的特徴を抽出し,顔画像から話者特性を予測する。本稿では,従来の手法よりも客観評価と主観評価の両面において,提案手法の優位性を示す。
論文参考訳（メタデータ） (2021-07-26T07:36:02Z)
Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。 SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文参考訳（メタデータ） (2021-06-06T15:34:11Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。