論文の概要: VoxMorph: Scalable Zero-shot Voice Identity Morphing via Disentangled Embeddings
- arxiv url: http://arxiv.org/abs/2601.20883v1
- Date: Tue, 27 Jan 2026 19:45:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.34742
- Title: VoxMorph: Scalable Zero-shot Voice Identity Morphing via Disentangled Embeddings
- Title(参考訳): VoxMorph: アンタングル型埋め込みによるスケーラブルなゼロショット音声アイデンティティモーフィング
- Authors: Bharath Krishnamurthy, Ajita Rattani,
- Abstract要約: VoxMorphは,モデル再構成なしで1被験者あたり5秒の音声から高忠実度音声形態を生成するフレームワークである。
VoxMorphは最先端のパフォーマンスを達成し、オーディオ品質が2.6倍向上し、インテリジェンスエラーが73%減少し、自動話者検証システムにおける67.8%の攻撃成功率を実現している。
- 参考スコア(独自算出の注目度): 2.5925656171325127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Morphing techniques generate artificial biometric samples that combine features from multiple individuals, allowing each contributor to be verified against a single enrolled template. While extensively studied in face recognition, this vulnerability remains largely unexplored in voice biometrics. Prior work on voice morphing is computationally expensive, non-scalable, and limited to acoustically similar identity pairs, constraining practical deployment. Moreover, existing sound-morphing methods target audio textures, music, or environmental sounds and are not transferable to voice identity manipulation. We propose VoxMorph, a zero-shot framework that produces high-fidelity voice morphs from as little as five seconds of audio per subject without model retraining. Our method disentangles vocal traits into prosody and timbre embeddings, enabling fine-grained interpolation of speaking style and identity. These embeddings are fused via Spherical Linear Interpolation (Slerp) and synthesized using an autoregressive language model coupled with a Conditional Flow Matching network. VoxMorph achieves state-of-the-art performance, delivering a 2.6x gain in audio quality, a 73% reduction in intelligibility errors, and a 67.8% morphing attack success rate on automated speaker verification systems under strict security thresholds. This work establishes a practical and scalable paradigm for voice morphing with significant implications for biometric security. The code and dataset are available on our project page: https://vcbsl.github.io/VoxMorph/
- Abstract(参考訳): モルフィング技術は、複数の個人の特徴を組み合わせた人工的なバイオメトリックサンプルを生成し、各コントリビュータが単一の登録テンプレートに対して検証することができる。
顔認識では広く研究されているが、この脆弱性は音声バイオメトリックスでは研究されていない。
以前の音声モーフィングの作業は、計算コストが高く、スケーリング不可能で、音響的に類似したアイデンティティペアに限られており、実際の展開を制限している。
さらに,音質,音楽,環境音を対象とし,音声の同一性操作には対応していない。
VoxMorphは、モデル再構成なしで、被験者あたり5秒のオーディオから高忠実度音声形態を生成するゼロショットフレームワークである。
本手法は,発声特性を韻律や音韻の埋め込みに分解し,発声スタイルやアイデンティティの微粒な補間を可能にする。
これらの埋め込みは、球状線形補間(Slerp)を介して融合され、条件付きフローマッチングネットワークと組み合わされた自己回帰言語モデルを用いて合成される。
VoxMorphは最先端のパフォーマンスを達成し、オーディオ品質が2.6倍向上し、73%のインテリジェンスエラーが減少し、67.8%が厳格なセキュリティ閾値の下で自動話者検証システムに対する攻撃成功率を達成している。
この研究は、バイオメトリック・セキュリティに重要な意味を持つ音声モーフィングのための実用的でスケーラブルなパラダイムを確立する。
コードとデータセットはプロジェクトのページで公開されています。
関連論文リスト
- Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - Quantum-Inspired Audio Unlearning: Towards Privacy-Preserving Voice Biometrics [44.60499998155848]
QPAudioEraserは量子にインスパイアされたオーディオアンラーニングフレームワークである。
シングルクラス、マルチクラス、シーケンシャル、アクセントレベルの消去シナリオにまたがって、従来のベースラインを一貫して超越している。
論文 参考訳(メタデータ) (2025-07-29T20:12:24Z) - Seeing Your Speech Style: A Novel Zero-Shot Identity-Disentanglement Face-based Voice Conversion [5.483488375189695]
顔に基づく音声変換(FVC)は、顔画像を利用してターゲット話者の音声スタイルを生成する新しいタスクである。
先行研究は,(1)話者の音声識別情報に整合した顔埋め込みの獲得に苦しむこと,(2)コンテンツと話者識別情報を音声入力から切り離すのに不適切であること,の2つの欠点がある。
上記の2つの制限を克服する新しいFVC手法であるID-FaceVCを提案する。
論文 参考訳(メタデータ) (2024-09-01T11:51:18Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Voice Morphing: Two Identities in One Voice [12.404748962951157]
音声を用いたモーフィング (VIM) を導入し, 音声サンプルを合成し, 個人の声の特徴を識別する。
VIMは成功率(MMPMR)が80%以上で、ミスマッチレートは1%である。
論文 参考訳(メタデータ) (2023-09-05T17:36:34Z) - Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion [4.251500966181852]
本研究は,8人の有名な人物の実際の音声と,その音声を検索型音声変換を用いて互いに変換する。
エクストリーム・グラディエント・ブースティング・モデルは99.3%の平均的な分類精度を達成でき、音声の1秒あたり0.004ミリ秒のリアルタイムな分類が可能であることが判明した。
論文 参考訳(メタデータ) (2023-08-24T12:26:15Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Affective social anthropomorphic intelligent system [1.7849339006560665]
本研究は、感情や性格と人間のような適切な会話をすることができる人間型知的システムを提案する。
特定の感情の属性をマッピングするために,音声スタイルの伝達法も提案されている。
論文 参考訳(メタデータ) (2023-04-19T18:24:57Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder [53.901873501494606]
自動エンコーダによる音声変換を改良し,コンテンツ,F0,話者識別を同時に行う。
我々はF0輪郭を制御でき、ターゲット話者と一致したF0音声を生成し、品質と類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-04-15T22:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。