論文の概要: Towards Generalized Source Tracing for Codec-Based Deepfake Speech
- arxiv url: http://arxiv.org/abs/2506.07294v2
- Date: Tue, 10 Jun 2025 03:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 12:52:34.298562
- Title: Towards Generalized Source Tracing for Codec-Based Deepfake Speech
- Title(参考訳): コーデックに基づくディープフェイク音声の一般音源追跡に向けて
- Authors: Xuanjun Chen, I-Ming Lin, Lin Zhang, Haibin Wu, Hung-yi Lee, Jyh-Shing Roger Jang,
- Abstract要約: 本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。
提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
- 参考スコア(独自算出の注目度): 52.68106957822706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent attempts at source tracing for codec-based deepfake speech (CodecFake), generated by neural audio codec-based speech generation (CoSG) models, have exhibited suboptimal performance. However, how to train source tracing models using simulated CoSG data while maintaining strong performance on real CoSG-generated audio remains an open challenge. In this paper, we show that models trained solely on codec-resynthesized data tend to overfit to non-speech regions and struggle to generalize to unseen content. To mitigate these challenges, we introduce the Semantic-Acoustic Source Tracing Network (SASTNet), which jointly leverages Whisper for semantic feature encoding and Wav2vec2 with AudioMAE for acoustic feature encoding. Our proposed SASTNet achieves state-of-the-art performance on the CoSG test set of the CodecFake+ dataset, demonstrating its effectiveness for reliable source tracing.
- Abstract(参考訳): ニューラルオーディオコーデックベース音声生成(CoSG)モデルにより生成されるコーデックベースディープフェイク音声(CodecFake)の音源追跡の試みは、最適下性能を示した。
しかし、実際のCoSG生成オーディオの強い性能を維持しながら、シミュレーションされたCoSGデータを使用してソーストレースモデルをトレーニングする方法は、まだオープンな課題である。
本稿では,コーデック合成データのみに訓練されたモデルが非音声領域に過度に適合し,目に見えないコンテンツに一般化するのに苦労する傾向にあることを示す。
これらの課題を軽減するために,意味的特徴符号化にWhisperを,音響的特徴符号化にWav2vec2を,音響的特徴符号化にAudioMAEと併用したSemantic-Acoustic Source Tracing Network (SASTNet)を導入する。
提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
関連論文リスト
- MagiCodec: Simple Masked Gaussian-Injected Codec for High-Fidelity Reconstruction and Generation [19.998635838159217]
MagiCodecは、トランスフォーマーベースの新しいシングルレイヤー・ストリーミングオーディオである。
周波数領域におけるノイズ注入の効果を解析的に導出し,その有効性を示す。
MagiCodecは、再構築品質と下流タスクの両方において最先端のコーデックを上回っていることを示す。
論文 参考訳(メタデータ) (2025-05-31T04:31:02Z) - FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。
デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文 参考訳(メタデータ) (2025-02-06T19:24:50Z) - Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model [36.61105228468503]
X-Codecは、Residual Vector Quantizationステージの前に、事前訓練されたセマンティックエンコーダのセマンティック機能を組み込んでいる。
X-Codecは音声合成タスクのWERを大幅に削減し、これらの利点を非音声アプリケーションに拡張する。
音声合成における意味情報の統合は,音声生成における言語モデル全体の性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T10:24:07Z) - CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。
投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文 参考訳(メタデータ) (2023-11-15T14:15:30Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。