論文の概要: Discrete Optimal Transport and Voice Conversion
- arxiv url: http://arxiv.org/abs/2505.04382v1
- Date: Wed, 07 May 2025 13:04:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.078208
- Title: Discrete Optimal Transport and Voice Conversion
- Title(参考訳): 離散的最適移動と音声変換
- Authors: Anton Selitskiy, Maitreya Kocharekar,
- Abstract要約: 我々は、話者間のオーディオ埋め込みを整列させるために、離散的な最適なトランスポートマッピングを用いる。
音声生成における処理後ステップとして離散的最適転送を適用することで、合成音声の誤分類を現実とすることができる。
- 参考スコア(独自算出の注目度): 0.552480439325792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we address the voice conversion (VC) task using a vector-based interface. To align audio embeddings between speakers, we employ discrete optimal transport mapping. Our evaluation results demonstrate the high quality and effectiveness of this method. Additionally, we show that applying discrete optimal transport as a post-processing step in audio generation can lead to the incorrect classification of synthetic audio as real.
- Abstract(参考訳): 本研究では,ベクトルベースインタフェースを用いて音声変換(VC)タスクに対処する。
話者間のオーディオ埋め込みの整合を図るため,個別の最適トランスポートマッピングを用いる。
評価結果は,本手法の高品質化と有効性を示すものである。
さらに、音声生成における処理後ステップとして離散的最適転送を適用することで、合成音声の誤分類を現実とすることができることを示す。
関連論文リスト
- LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport [16.108957027494604]
LAVCapは大型言語モデル(LLM)ベースの音声視覚キャプションフレームワークである。
視覚情報とオーディオを統合し、音声キャプション性能を向上させる。
既存のAudioCapsデータセットの最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2025-01-16T04:53:29Z) - Optimal Transport Maps are Good Voice Converters [58.42556113055807]
本稿では,メル・スペクトログラムや自己教師付き音声モデルの潜在表現など,さまざまなデータ表現に最適なトランスポートアルゴリズムを提案する。
メリースペクトルデータ表現では、Frechet Audio Distance (FAD) を用いて強い結果が得られる。
我々は,限られた参照話者データであっても,最先端の成果を達成し,既存手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-17T22:48:53Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Audio Contrastive based Fine-tuning [21.145936249583446]
本稿では,音声コントラストに基づくファインチューニング(AudioConFit)を,頑健な汎用性を特徴とする効率的なアプローチとして紹介する。
様々な音声分類タスクに関する実証実験により,提案手法の有効性とロバスト性を実証した。
論文 参考訳(メタデータ) (2023-09-21T08:59:13Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。