Fugu-MT 論文翻訳(概要): FreeVC: Towards High-Quality Text-Free One-Shot Voice Conversion

論文の概要: FreeVC: Towards High-Quality Text-Free One-Shot Voice Conversion

arxiv url: http://arxiv.org/abs/2210.15418v1
Date: Thu, 27 Oct 2022 13:32:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-28 16:17:44.198559
Title: FreeVC: Towards High-Quality Text-Free One-Shot Voice Conversion
Title（参考訳）: FreeVC: 高品質テキストフリーワンショット音声変換を目指す
Authors: Jingyi li, Weiping tu, Li xiao
Abstract要約: 我々は、高品質な波形再構成のためのVITSのエンドツーエンドフレームワークを採用する。 We disentangle content information by imposing an information bottleneck to WavLM features。本稿では,抽出したコンテンツ情報の純度を向上させるために,分光器サイズに基づくデータ拡張を提案する。
参考スコア（独自算出の注目度）: 17.274784447811665
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Voice conversion (VC) can be achieved by first extracting source content information and target speaker information, and then reconstructing waveform with these information. However, current approaches normally either extract dirty content information with speaker information leaked in, or demand a large amount of annotated data for training. Besides, the quality of reconstructed waveform can be degraded by the mismatch between conversion model and vocoder. In this paper, we adopt the end-to-end framework of VITS for high-quality waveform reconstruction, and propose strategies for clean content information extraction without text annotation. We disentangle content information by imposing an information bottleneck to WavLM features, and propose the spectrogram-resize based data augmentation to improve the purity of extracted content information. Experimental results show that the proposed method outperforms the latest VC models trained with annotated data and has greater robustness.
Abstract（参考訳）: 音声変換(vc)は、まずソースコンテンツ情報とターゲット話者情報を抽出し、それからこれらの情報で波形を再構成することで実現できる。しかし、現在のアプローチは通常、話者情報が漏洩した汚いコンテンツ情報を抽出するか、トレーニングのために大量の注釈付きデータを要求する。さらに、変換モデルとボコーダのミスマッチにより再構成波形の品質を劣化させることができる。本稿では,高品質波形再構成のためのvitsのエンドツーエンドフレームワークを採用し,テキストアノテーションを使わずにクリーンなコンテンツ情報抽出手法を提案する。我々は,wavlmの特徴に情報ボトルネックを課すことでコンテンツ情報の絡み合いを解消し,抽出されたコンテンツ情報の純度を向上させるために,スペクトログラムリサイズに基づくデータ拡張を提案する。実験の結果,提案手法はアノテートデータを用いてトレーニングした最新のVCモデルよりも優れ,ロバスト性が高いことがわかった。

関連論文リスト

A Cascaded Architecture for Extractive Summarization of Multimedia Content via Audio-to-Text Alignment [0.0]
本研究は,音声-テキストアライメントによるマルチメディアコンテンツの抽出要約のためのカスケードアーキテクチャを提案する。 Microsoft Azure Speechを使った音声からテキストへの変換と、Whisper、Pegasus、Facebook BART XSumといった高度な抽出要約モデルを統合する。 ROUGEとF1スコアを用いた評価は,従来の要約手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2025-03-06T13:59:14Z)
VQalAttent: a Transparent Speech Generation Pipeline based on Transformer-learned VQ-VAE Latent Space [0.49109372384514843]
VQalAttentは、調整可能な性能と解釈性を備えた偽音声を生成するために設計された軽量モデルである。以上の結果から,VQalAttentが限られた計算資源を持つ可知音声サンプルを生成する能力を示した。
論文参考訳（メタデータ） (2024-11-22T00:21:39Z)
Maintaining Informative Coherence: Migrating Hallucinations in Large Language Models via Absorbing Markov Chains [6.920249042435973]
大規模言語モデル(LLM)は、テキスト生成、翻訳、要約のための強力なツールである。 LLMは、文脈情報の忠実さとコヒーレンスを維持するのに失敗する幻覚症状に悩まされることが多い。本稿では,マルコフ連鎖を吸収し,文脈情報の重要性を定量化する新しい復号手法を提案する。
論文参考訳（メタデータ） (2024-10-27T04:51:18Z)
Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文参考訳（メタデータ） (2024-09-29T03:33:35Z)
An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation [35.76451156732993]
情報ボトルネック理論を検索強化世代に導入する。提案手法では,圧縮と地盤出力の相互情報を同時に最大化することにより,ノイズのフィルタリングを行う。我々は,情報ボトルネックの定式化を導出し,新たな包括的評価を行う。
論文参考訳（メタデータ） (2024-06-03T17:31:06Z)
Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文参考訳（メタデータ） (2024-05-21T18:02:07Z)
RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文参考訳（メタデータ） (2023-10-16T16:42:01Z)
Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文参考訳（メタデータ） (2023-08-30T02:22:40Z)
Towards Improved Zero-shot Voice Conversion with Conditional DSVAE [30.376259456529368]
ノンパラレル音声変換では,コンテンツと発話スタイルの情報の分離が不可欠である。本稿では,事前モデリングの条件として,コンテンツバイアスを可能にする新しいモデルである条件付きDSVAEを提案する。条件付きDSVAEから導出されるコンテンツ埋め込みが、ランダム性を克服し、より優れた音素分類精度を実現することを実証する。
論文参考訳（メタデータ） (2022-05-11T01:19:42Z)
Robust Disentangled Variational Speech Representation Learning for Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。 TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文参考訳（メタデータ） (2022-03-30T23:03:19Z)
StreamHover: Livestream Transcript Summarization and Annotation [54.41877742041611]
ライブストリームの書き起こしを注釈付けして要約するフレームワークであるStreamHoverを紹介します。合計500時間以上のビデオに抽出的要約と抽象的要約を併用したベンチマークデータセットは,既存の注釈付きコーパスよりもはるかに大きい。我々のモデルはより一般化され、強力なベースラインよりも性能が向上することを示す。
論文参考訳（メタデータ） (2021-09-11T02:19:37Z)
Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文参考訳（メタデータ） (2020-08-21T20:59:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。