論文の概要: LJ-Spoof: A Generatively Varied Corpus for Audio Anti-Spoofing and Synthesis Source Tracing
- arxiv url: http://arxiv.org/abs/2601.07958v1
- Date: Mon, 12 Jan 2026 19:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.923073
- Title: LJ-Spoof: A Generatively Varied Corpus for Audio Anti-Spoofing and Synthesis Source Tracing
- Title(参考訳): LJ-Spoof:オーディオアンチスプーフと合成ソース追跡のためのジェネレーション付きコーパス
- Authors: Surya Subramani, Hashim Ali, Hafiz Malik,
- Abstract要約: LJ-Spoofは話者特異的で、生成的に多様なコーパスである。
この変動密度設計により、頑健な話者条件付きアンチスプーフィングときめ細かい合成ソーストレースが可能になる。
- 参考スコア(独自算出の注目度): 2.657415162841992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker-specific anti-spoofing and synthesis-source tracing are central challenges in audio anti-spoofing. Progress has been hampered by the lack of datasets that systematically vary model architectures, synthesis pipelines, and generative parameters. To address this gap, we introduce LJ-Spoof, a speaker-specific, generatively diverse corpus that systematically varies prosody, vocoders, generative hyperparameters, bona fide prompt sources, training regimes, and neural post-processing. The corpus spans one speakers-including studio-quality recordings-30 TTS families, 500 generatively variant subsets, 10 bona fide neural-processing variants, and more than 3 million utterances. This variation-dense design enables robust speaker-conditioned anti-spoofing and fine-grained synthesis-source tracing. We further position this dataset as both a practical reference training resource and a benchmark evaluation suite for anti-spoofing and source tracing.
- Abstract(参考訳): 話者固有のアンチスプーフィングと合成ソーストレースは、オーディオアンチスプーフィングにおける中心的な課題である。
モデルアーキテクチャ、合成パイプライン、生成パラメータを体系的に変更するデータセットの欠如によって、進歩は妨げられている。
このギャップに対処するために、LJ-Spoofは、プロソディ、ヴォコーダー、生成ハイパーパラメータ、ボナ・フェイド・プロンプト源、訓練体制、神経後処理を体系的に変化させる話者特異的で、多種多様なコーパスである。
コーパスは、スタジオ品質の録音を含む1つのスピーカーを含む30のTSファミリー、500種類の世代別サブセット、10種類のボナフッドニューラルプロセッシング、300万以上の発話にまたがる。
この変動密度設計により、頑健な話者条件付きアンチスプーフィングときめ細かい合成ソーストレースが可能になる。
さらに、このデータセットを、実用的なリファレンストレーニングリソースと、アンチスプーフィングとソーストレースのためのベンチマーク評価スイートの両方として位置付ける。
関連論文リスト
- STOPA: A Database of Systematic VariaTion Of DeePfake Audio for Open-Set Source Tracing and Attribution [10.07455611633963]
STOPAは、13の合成器から8つのAM、6つの設定、700kサンプルをカバーするディープフェイク音声ソーストレースのためのデータセットである。
STOPAは、ボコーダモデル、音響モデル、事前訓練された重みの選択など、幅広い生成要因をカバーする体系的に制御されたフレームワークを提供する。
この制御により帰属精度が向上し、法医学的分析、ディープフェイク検出、生成モデルの透明性が向上する。
論文 参考訳(メタデータ) (2025-05-26T08:00:30Z) - Exposing Synthetic Speech: Model Attribution and Detection of AI-generated Speech via Audio Fingerprints [11.703509488782345]
我々は、AI生成音声を検出するためのトレーニング不要で効果的なアプローチを導入する。
本研究では,(1)オープンワールド環境における単一モデル帰属,(2)クローズドワールド環境における多モデル帰属,(3)合成音声と実音声の検知という3つの重要な課題に取り組む。
論文 参考訳(メタデータ) (2024-11-21T10:55:49Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Residual Adapters for Few-Shot Text-to-Speech Speaker Adaptation [21.218195769245032]
本稿では,残差アダプタと呼ばれるトレーニング可能な軽量モジュールでバックボーンモデルを拡張したパラメータ効率の低い少数話者適応を提案する。
実験結果から,提案手法は完全微調整手法と比較して,競合自然性や話者類似性を実現できることが示された。
論文 参考訳(メタデータ) (2022-10-28T03:33:07Z) - Leveraging Symmetrical Convolutional Transformer Networks for Speech to
Singing Voice Style Transfer [49.01417720472321]
我々は、入力音声とターゲットメロディのアライメントをモデル化する、SymNetと呼ばれる新しいニューラルネットワークアーキテクチャを開発する。
音声と歌声の並列データからなるNASデータセットとNHSSデータセットで実験を行う。
論文 参考訳(メタデータ) (2022-08-26T02:54:57Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。