論文の概要: Collective Learning Mechanism based Optimal Transport Generative Adversarial Network for Non-parallel Voice Conversion
- arxiv url: http://arxiv.org/abs/2504.13791v1
- Date: Fri, 18 Apr 2025 16:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 14:49:05.746872
- Title: Collective Learning Mechanism based Optimal Transport Generative Adversarial Network for Non-parallel Voice Conversion
- Title(参考訳): 非並列音声変換のための集団学習機構に基づく最適輸送生成逆ネットワーク
- Authors: Sandipan Dhar, Md. Tousin Akhter, Nanda Dulal Jana, Swagatam Das,
- Abstract要約: 本研究では,集団学習機構に基づく最適輸送GAN(CLOT-GAN)モデルという新しいGANモデルを提案する。
様々な識別器を統合する目的は、集団学習機構によって促進されるメル-スペクトログラムの定型分布を理解する能力にある。
CLOT-GAN-VCモデルは、客観的および主観的評価において、既存のVoice Conversion(VC)モデルより優れている。
- 参考スコア(独自算出の注目度): 12.00139883681593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: After demonstrating significant success in image synthesis, Generative Adversarial Network (GAN) models have likewise made significant progress in the field of speech synthesis, leveraging their capacity to adapt the precise distribution of target data through adversarial learning processes. Notably, in the realm of State-Of-The-Art (SOTA) GAN-based Voice Conversion (VC) models, there exists a substantial disparity in naturalness between real and GAN-generated speech samples. Furthermore, while many GAN models currently operate on a single generator discriminator learning approach, optimizing target data distribution is more effectively achievable through a single generator multi-discriminator learning scheme. Hence, this study introduces a novel GAN model named Collective Learning Mechanism-based Optimal Transport GAN (CLOT-GAN) model, incorporating multiple discriminators, including the Deep Convolutional Neural Network (DCNN) model, Vision Transformer (ViT), and conformer. The objective of integrating various discriminators lies in their ability to comprehend the formant distribution of mel-spectrograms, facilitated by a collective learning mechanism. Simultaneously, the inclusion of Optimal Transport (OT) loss aims to precisely bridge the gap between the source and target data distribution, employing the principles of OT theory. The experimental validation on VCC 2018, VCTK, and CMU-Arctic datasets confirms that the CLOT-GAN-VC model outperforms existing VC models in objective and subjective assessments.
- Abstract(参考訳): 画像合成において顕著な成功を収めたGANモデルも同様に音声合成の分野で大きな進歩を遂げており、その能力を活用して、敵対的学習プロセスを通じてターゲットデータの正確な分布を適応させている。
特に、ステートオフ・ザ・アート(SOTA)GANベースのVoice Conversion(VC)モデルでは、実際の音声サンプルとGAN生成音声サンプルの間には、自然性にかなりの相違がある。
さらに、現在多くのGANモデルが単一のジェネレータ識別学習アプローチで運用されているが、ターゲットデータ分布の最適化は、単一のジェネレータ多重識別器学習方式によりより効果的に実現可能である。
そこで本研究では,Deep Convolutional Neural Network(DCNN)モデル,ViT(Vision Transformer)モデル,コンホメータを含む複数の識別器を組み込んだ,集団学習機構に基づく最適輸送GAN(CLOT-GAN)モデルを提案する。
様々な識別器を統合する目的は、集団学習機構によって促進されるメル-スペクトログラムの定型分布を理解する能力にある。
同時に、OT(Optimal Transport)の損失は、OT理論の原則を用いて、ソースとターゲットデータの間のギャップを正確に埋めることを目的としている。
VCC 2018、VCTK、CMU-Arcticデータセットに対する実験的検証により、CLOT-GAN-VCモデルは、客観的および主観的な評価において既存のVCモデルよりも優れていることが確認された。
関連論文リスト
- Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - OnDev-LCT: On-Device Lightweight Convolutional Transformers towards
federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。
トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文 参考訳(メタデータ) (2024-01-22T02:17:36Z) - Unifying Self-Supervised Clustering and Energy-Based Models [9.3176264568834]
自己教師付き学習と生成モデルとの間には,原則的な関連性を確立する。
シンボル接地問題の単純かつ非自明なインスタンス化に対処するために,我々の解法をニューロシンボリックな枠組みに統合できることが示される。
論文 参考訳(メタデータ) (2023-12-30T04:46:16Z) - Building a Winning Team: Selecting Source Model Ensembles using a
Submodular Transferability Estimation Approach [20.86345962679122]
公開されている事前訓練されたモデルの目標タスクへの転送可能性の推定は、伝達学習タスクにとって重要な場所となっている。
本稿では, モデルアンサンブルの下流タスクへの転送可能性を評価するために, 最適なtranSportベースのsuBmOdular tRaNsferability Metrics(OSBORN)を提案する。
論文 参考訳(メタデータ) (2023-09-05T17:57:31Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Latent Code Augmentation Based on Stable Diffusion for Data-free Substitute Attacks [47.84143701817491]
ブラックボックス代替攻撃では対象モデルのトレーニングデータが利用できないため、近年のスキームではGANを用いて代替モデルのトレーニングデータを生成する。
本稿では,SD(Stable Diffusion)に基づくデータフリー代替攻撃方式を提案する。
論文 参考訳(メタデータ) (2023-07-24T15:10:22Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Generative Model Based Noise Robust Training for Unsupervised Domain
Adaptation [108.11783463263328]
本稿では, 生成モデルに基づくノイズ・ロバスト訓練法(GeNRT)を提案する。
ラベルノイズを緩和しながらドメインシフトを除去する。
Office-Home、PACS、Digit-Fiveの実験は、GeNRTが最先端のメソッドに匹敵するパフォーマンスを実現していることを示している。
論文 参考訳(メタデータ) (2023-03-10T06:43:55Z) - Toward Adaptive Semantic Communications: Efficient Data Transmission via
Online Learned Nonlinear Transform Source-Channel Coding [11.101344530143303]
深層学習モデルの過剰適合性を利用したオンライン学習型ジョイントソースとチャネルコーディング手法を提案する。
具体的には,市販の事前訓練型モデルを軽量なオンライン方式で展開し,ソースデータと環境領域の分散シフトに適応させる。
私たちはオーバーフィットの概念を極端に捉え、モデルや表現を個々のデータやチャネル状態インスタンスに適応させる実装フレンドリな一連のメソッドを提案します。
論文 参考訳(メタデータ) (2022-11-08T16:00:27Z) - Boosting the Generalization Capability in Cross-Domain Few-shot Learning
via Noise-enhanced Supervised Autoencoder [23.860842627883187]
我々は、新しいノイズ強調型教師付きオートエンコーダ(NSAE)を用いて、特徴分布のより広範なバリエーションを捉えるようモデルに教える。
NSAEは入力を共同で再構築し、入力のラベルと再構成されたペアを予測することによってモデルを訓練する。
また、NSAE構造を利用して、より適応性を高め、対象領域の分類性能を向上させる2段階の微調整手順を提案する。
論文 参考訳(メタデータ) (2021-08-11T04:45:56Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。