論文の概要: Interpolating Speaker Identities in Embedding Space for Data Expansion
- arxiv url: http://arxiv.org/abs/2508.19210v1
- Date: Tue, 26 Aug 2025 17:15:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.932403
- Title: Interpolating Speaker Identities in Embedding Space for Data Expansion
- Title(参考訳): データ拡張のための埋め込み空間における話者アイデンティティの補間
- Authors: Tianchi Liu, Ruijie Tao, Qiongqiong Wang, Yidi Jiang, Hardik B. Sailor, Ke Zhang, Jingru Lin, Haizhou Li,
- Abstract要約: INSIDE(Interpolating Speaker Identities in Embedding Space)は、既存の話者埋め込みを補間することによって、新しい話者アイデンティティを合成する新しいデータ拡張手法である。
INSIDEで訓練されたモデルは、実際のデータでのみ訓練されたモデルより優れ、3.06%から5.24%改善した。
- 参考スコア(独自算出の注目度): 38.856864258602165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of deep learning-based speaker verification systems is largely attributed to access to large-scale and diverse speaker identity data. However, collecting data from more identities is expensive, challenging, and often limited by privacy concerns. To address this limitation, we propose INSIDE (Interpolating Speaker Identities in Embedding Space), a novel data expansion method that synthesizes new speaker identities by interpolating between existing speaker embeddings. Specifically, we select pairs of nearby speaker embeddings from a pretrained speaker embedding space and compute intermediate embeddings using spherical linear interpolation. These interpolated embeddings are then fed to a text-to-speech system to generate corresponding speech waveforms. The resulting data is combined with the original dataset to train downstream models. Experiments show that models trained with INSIDE-expanded data outperform those trained only on real data, achieving 3.06\% to 5.24\% relative improvements. While INSIDE is primarily designed for speaker verification, we also validate its effectiveness on gender classification, where it yields a 13.44\% relative improvement. Moreover, INSIDE is compatible with other augmentation techniques and can serve as a flexible, scalable addition to existing training pipelines.
- Abstract(参考訳): ディープラーニングに基づく話者認証システムの成功は主に、大規模かつ多様な話者識別データへのアクセスによるものである。
しかし、より多くのIDからデータを収集することは高価で困難であり、プライバシー上の懸念によって制限されることが多い。
この制限に対処するため,既存の話者埋め込みを補間することによって新しい話者識別を合成するINSIDE(Interpolating Speaker Identities in Embedding Space)を提案する。
具体的には、事前訓練された話者埋め込み空間から近傍話者埋め込みのペアを選択し、球面線形補間を用いて中間埋め込みを計算する。
これらの補間埋め込みはテキスト音声システムに送られ、対応する音声波形を生成する。
結果のデータを元のデータセットと組み合わせて、下流モデルをトレーニングする。
実験により、INSIDEで拡張されたデータでトレーニングされたモデルは、実際のデータでのみトレーニングされたモデルよりも優れており、3.06\%から5.24\%の改善が達成されている。
INSIDEは主に話者検証用に設計されているが、性別分類においても有効性が検証され、13.44 %の相対的な改善が得られている。
さらに、INSIDEは他の拡張テクニックと互換性があり、既存のトレーニングパイプラインに柔軟でスケーラブルな追加として機能する。
関連論文リスト
- Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Label-Efficient Self-Supervised Speaker Verification With Information
Maximization and Contrastive Learning [0.0]
生音声から直接表現を学習することによる話者検証のための自己教師型学習について検討する。
我々のアプローチは、最近の情報学習フレームワークと集中的なデータ前処理ステップに基づいています。
論文 参考訳(メタデータ) (2022-07-12T13:01:55Z) - Training speaker recognition systems with limited data [2.3148470932285665]
この研究は、現代の研究に比べてデータセットサイズがはるかに小さい話者認識のためのニューラルネットワークのトレーニングを検討する。
一般的なVoxCeleb2データセットの3つのサブセットを提案することで、データの量を人工的に制限する。
トレーニングデータに制限がある場合,wav2vec2の自己教師付き事前訓練重量が有意に向上することを示す。
論文 参考訳(メタデータ) (2022-03-28T12:41:41Z) - Speaker diarization with session-level speaker embedding refinement
using graph neural networks [26.688724154619504]
話者ダイアリゼーション問題に対するグラフニューラルネットワーク(GNN)の最初の利用法として,GNNを用いて話者埋め込みを局所的に洗練する手法を提案する。
事前学習されたモデルによって抽出された話者埋め込みは、単一のセッション内の異なる話者がより分離された新しい埋め込み空間に再マップされる。
改良された話者埋め込みのクラスタリング性能は,シミュレーションデータと実会議データの両方において,元の埋め込みよりも優れていた。
論文 参考訳(メタデータ) (2020-05-22T19:52:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。