論文の概要: Fed-PISA: Federated Voice Cloning via Personalized Identity-Style Adaptation
- arxiv url: http://arxiv.org/abs/2509.16010v1
- Date: Fri, 19 Sep 2025 14:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.196023
- Title: Fed-PISA: Federated Voice Cloning via Personalized Identity-Style Adaptation
- Title(参考訳): Fed-PISA: 個人化IDスタイル適応によるフェデレーション音声のクローニング
- Authors: Qi Wang, Shituo Ma, Guoxin Yu, Hanyang Peng, Yue Yu,
- Abstract要約: 我々は,Federated Personalized Identity-Style Adaptationの略であるFed-PISAを提案する。
通信コストを最小限に抑えるため、Fed-PISAはアンタングル型低ランク適応機構を導入した。
協調フィルタリングにインスパイアされたアグリゲーション手法を導入し,クライアントごとにカスタムモデルを作成する。
- 参考スコア(独自算出の注目度): 16.82741566236376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice cloning for Text-to-Speech (TTS) aims to generate expressive and personalized speech from text using limited data from a target speaker. Federated Learning (FL) offers a collaborative and privacy-preserving framework for this task, but existing approaches suffer from high communication costs and tend to suppress stylistic heterogeneity, resulting in insufficient personalization. To address these issues, we propose Fed-PISA, which stands for Federated Personalized Identity-Style Adaptation. To minimize communication costs, Fed-PISA introduces a disentangled Low-Rank Adaptation (LoRA) mechanism: the speaker's timbre is retained locally through a private ID-LoRA, while only a lightweight style-LoRA is transmitted to the server, thereby minimizing parameter exchange. To harness heterogeneity, our aggregation method, inspired by collaborative filtering, is introduced to create custom models for each client by learning from stylistically similar peers. Experiments show that Fed-PISA improves style expressivity, naturalness, and speaker similarity, outperforming standard federated baselines with minimal communication costs.
- Abstract(参考訳): Text-to-Speech (TTS) の音声クローニングは、ターゲット話者の限られたデータを用いて、テキストから表現的でパーソナライズされた音声を生成することを目的としている。
フェデレートラーニング(FL)は、このタスクのための協調的かつプライバシー保護の枠組みを提供するが、既存のアプローチは高いコミュニケーションコストに悩まされ、スタイリスティックな不均一性を抑える傾向があり、パーソナライゼーションが不十分である。
これらの問題に対処するため、フェデレーション・パーソナライズド・アイデンティティ・スタイル適応(Federated Personalized Identity-Style Adaptation)の略であるFed-PISAを提案する。
通信コストを最小限に抑えるため、Fed-PISAは、話者の音色をプライベートID-LoRAを介してローカルに保持し、軽量なスタイル-LoRAのみがサーバに送信され、パラメータ交換を最小化する、アンタングルドローランク適応(LoRA)機構を導入している。
不均一性を活用するために,協調フィルタリングにインスパイアされたアグリゲーション手法を導入し,スタイリスティックに類似したピアから学習することで,各クライアントのカスタムモデルを作成する。
実験により、Fed-PISAはスタイル表現性、自然性、話者類似性を向上し、最小の通信コストで標準のフェデレーションベースラインを上回っていることが示された。
関連論文リスト
- Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文 参考訳(メタデータ) (2025-06-30T02:56:11Z) - Towards Better Disentanglement in Non-Autoregressive Zero-Shot Expressive Voice Conversion [53.26424100244925]
表現的音声変換は、話者識別と表現的属性の両方を対象音声から所定の音源音声に転送することを目的としている。
本研究では,条件付き変分オートエンコーダを用いた自己監督型非自己回帰型フレームワークを改良する。
論文 参考訳(メタデータ) (2025-06-04T14:42:12Z) - Privacy-preserving Prompt Personalization in Federated Learning for Multimodal Large Language Models [12.406403248205285]
フェデレート・プロンプト・パーソナライゼーション(FPP)は、データの均一性と局所的なオーバーフィッティングに対処するために開発された。
我々は、パーソナライゼーションとプライバシ保証を調和させるセキュアなFPPプロトコルSecFPPを提案する。
SecFPPは、プライバシ保護ベースラインと非プライバシ保護ベースラインの両方で著しく優れています。
論文 参考訳(メタデータ) (2025-05-28T15:09:56Z) - Privacy-Preserving Personalized Federated Prompt Learning for Multimodal Large Language Models [11.747329476179223]
パーソナライゼーションと一般化のバランスをとる上での課題に対処するために,DP-FPL(Dis differentially Private Federated Prompt Learning)アプローチを提案する。
本手法は,プライバシノイズがモデル性能に与える影響を軽減し,パーソナライゼーションと一般化のトレードオフを緩和する。
論文 参考訳(メタデータ) (2025-01-23T18:34:09Z) - Personalized Wireless Federated Learning for Large Language Models [75.22457544349668]
大規模言語モデル(LLM)は、無線ネットワークにおいて大きな変革をもたらしている。
無線環境では、LLMのトレーニングはセキュリティとプライバシに関する重大な課題に直面している。
本稿では,無線ネットワークにおけるLLMのトレーニング段階の体系的解析を行い,事前学習,命令チューニング,アライメントチューニングを行う。
論文 参考訳(メタデータ) (2024-04-20T02:30:21Z) - Communication-Efficient Personalized Federated Learning for Speech-to-Text Tasks [64.02867484165476]
プライバシー保護と法的規制を満たすために、連邦学習(FL)は、音声テキスト(S2T)システムのトレーニングにおいて大きな注目を集めている。
S2Tタスクで一般的に使用されるFLアプローチ(textscFedAvg)は、通常、広範な通信オーバーヘッドに悩まされる。
我々は、クライアント側チューニングとサーバとのインタラクションのための軽量なLoRAモジュールであるtextscFedLoRA と、$k$-near を備えたグローバルモデルである textscFedMem を導入したパーソナライズされたS2Tフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T15:39:38Z) - DisPFL: Towards Communication-Efficient Personalized Federated Learning
via Decentralized Sparse Training [84.81043932706375]
本稿では,分散型(ピアツーピア)通信プロトコルであるDis-PFLにおいて,新たな個人化フェデレーション学習フレームワークを提案する。
Dis-PFLはパーソナライズされたスパースマスクを使用して、エッジ上のスパースローカルモデルをカスタマイズする。
本手法は,計算複雑性の異なる異種ローカルクライアントに容易に適応できることを実証する。
論文 参考訳(メタデータ) (2022-06-01T02:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。