論文の概要: LinearVC: Linear transformations of self-supervised features through the lens of voice conversion
- arxiv url: http://arxiv.org/abs/2506.01510v1
- Date: Mon, 02 Jun 2025 10:18:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.188405
- Title: LinearVC: Linear transformations of self-supervised features through the lens of voice conversion
- Title(参考訳): 線形VC:音声変換のレンズによる自己教師付き特徴の線形変換
- Authors: Herman Kamper, Benjamin van Niekerk, Julian Zaïdi, Marc-André Carbonneau,
- Abstract要約: LinearVCは、自己教師付き表現の構造に光を当てる単純な音声変換手法である。
自己教師付き特徴の単純な線形変換は音声を効果的に変換することを示す。
我々の研究は、実践的な音声変換と、自己教師付き音声表現のより広い理解の両方に影響を及ぼす。
- 参考スコア(独自算出の注目度): 22.49135460429279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce LinearVC, a simple voice conversion method that sheds light on the structure of self-supervised representations. First, we show that simple linear transformations of self-supervised features effectively convert voices. Next, we probe the geometry of the feature space by constraining the set of allowed transformations. We find that just rotating the features is sufficient for high-quality voice conversion. This suggests that content information is embedded in a low-dimensional subspace which can be linearly transformed to produce a target voice. To validate this hypothesis, we finally propose a method that explicitly factorizes content and speaker information using singular value decomposition; the resulting linear projection with a rank of just 100 gives competitive conversion results. Our work has implications for both practical voice conversion and a broader understanding of self-supervised speech representations. Samples and code: https://www.kamperh.com/linearvc/.
- Abstract(参考訳): 自己教師型表現の構造に光を当てるシンプルな音声変換手法であるLinearVCを紹介する。
まず、自己教師付き特徴の単純な線形変換が音声を効果的に変換することを示す。
次に、許容変換の集合を制約することで特徴空間の幾何学を探索する。
この機能を回転させるだけで、高品質な音声変換ができることがわかりました。
このことは、コンテンツ情報は低次元のサブ空間に埋め込まれており、ターゲット音声を生成するために線形変換可能であることを示唆している。
この仮説を検証するために, 特異値分解を用いて内容や話者情報を明示的に分解する手法を提案する。
我々の研究は、実践的な音声変換と、自己教師付き音声表現のより広い理解の両方に影響を及ぼす。
サンプルとコード:https://www.kamperh.com/linearvc/
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - SelfVC: Voice Conversion With Iterative Refinement using Self Transformations [42.97689861071184]
SelfVCは、自己合成例で音声変換モデルを改善するためのトレーニング戦略である。
本研究では,音声信号とSSL表現から韻律情報を導出する手法を開発し,合成モデルにおける予測サブモジュールの訓練を行う。
我々のフレームワークはテキストを使わずに訓練され、音声の自然性、話者の類似性、合成音声のインテリジェンス性を評価するため、ゼロショット音声変換を実現する。
論文 参考訳(メタデータ) (2023-10-14T19:51:17Z) - Towards General-Purpose Text-Instruction-Guided Voice Conversion [84.78206348045428]
本稿では,「深い声調でゆっくり発声する」や「陽気な少年声で話す」といったテキスト指示によって導かれる,新しい音声変換モデルを提案する。
提案したVCモデルは、離散コード列を処理するニューラルネットワークモデルであり、変換された音声のコード列を生成する。
論文 参考訳(メタデータ) (2023-09-25T17:52:09Z) - Voice Conversion With Just Nearest Neighbors [22.835346602837063]
任意の音声変換は、ターゲット話者のわずかな例を参照として、ソース音声をターゲット音声に変換することを目的としている。
我々はk-nearest neighbors voice conversion (kNN-VC)を提案する。
論文 参考訳(メタデータ) (2023-05-30T12:19:07Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - Invertible Voice Conversion [12.095003816544919]
本稿では,音声変換のための非可逆ディープラーニングフレームワークINVVCを提案する。
ソースの同一性をトレース可能な,可逆的なフレームワークを開発した。
提案手法を並列学習データを用いて1対1の音声変換と多対1の音声変換に適用する。
論文 参考訳(メタデータ) (2022-01-26T00:25:27Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Everybody's Talkin': Let Me Talk as You Want [134.65914135774605]
本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
論文 参考訳(メタデータ) (2020-01-15T09:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。