論文の概要: How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection
- arxiv url: http://arxiv.org/abs/2602.16343v1
- Date: Wed, 18 Feb 2026 10:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.578435
- Title: How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection
- Title(参考訳): 合成オーディオのラベル付け方法:ディープフェイク検出におけるニューラルオーディオコーデックの役割
- Authors: Yixuan Xiao, Florian Lux, Alejandro Pérez-González-de-Martos, Ngoc Thang Vu,
- Abstract要約: 最近のスプーフ検出研究では、ボコーダとニューラルオーディオコーデックの合成波形を用いて攻撃者をシミュレートしている。
ラベル付け選択の違いが検出性能にどのように影響するかを調べ,ラベル付け戦略に対する洞察を提供する。
- 参考スコア(独自算出の注目度): 60.88800374832363
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Since Text-to-Speech systems typically don't produce waveforms directly, recent spoof detection studies use resynthesized waveforms from vocoders and neural audio codecs to simulate an attacker. Unlike vocoders, which are specifically designed for speech synthesis, neural audio codecs were originally developed for compressing audio for storage and transmission. However, their ability to discretize speech also sparked interest in language-modeling-based speech synthesis. Owing to this dual functionality, codec resynthesized data may be labeled as either bonafide or spoof. So far, very little research has addressed this issue. In this study, we present a challenging extension of the ASVspoof 5 dataset constructed for this purpose. We examine how different labeling choices affect detection performance and provide insights into labeling strategies.
- Abstract(参考訳): Text-to-Speechシステムは通常、波形を直接生成しないため、最近のスプーフ検出研究では、ボコーダとニューラルオーディオコーデックの合成波形を使用して攻撃者をシミュレートしている。
音声合成用に特別に設計されたボコーダとは異なり、ニューラルオーディオコーデックはもともと記憶と伝送のために音声を圧縮するために開発された。
しかし、音声を識別する能力も言語モデルに基づく音声合成への関心を喚起した。
この二重機能により、コーデックの再合成データはボナフィドまたはスプーフとラベル付けされることがある。
これまでのところ、この問題に対処する研究はほとんどない。
本研究では,この目的のために構築された ASVspoof 5 データセットの挑戦的な拡張について述べる。
ラベル付け選択の違いが検出性能にどのように影響するかを調べ,ラベル付け戦略に対する洞察を提供する。
関連論文リスト
- A Closer Look at Neural Codec Resynthesis: Bridging the Gap between Codec and Waveform Generation [65.05719674893999]
トークン予測と回帰に基づく2つの戦略について検討し,Schr"odinger Bridgeに基づく新しい手法を提案する。
異なるデザイン選択が機械と人間の知覚にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2024-10-29T18:29:39Z) - Audio Codec Augmentation for Robust Collaborative Watermarking of Speech Synthesis [9.48476556434306]
本稿では,従来の音声コーデックとニューラルオーディオコーデックを併用するために,チャネル拡張を拡張した。
リスニングテストでは、8kbpsの高コーデックやDACで、協調的な透かしが知覚上の劣化を無視できることを示した。
論文 参考訳(メタデータ) (2024-09-20T10:33:17Z) - Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model [36.61105228468503]
X-Codecは、Residual Vector Quantizationステージの前に、事前訓練されたセマンティックエンコーダのセマンティック機能を組み込んでいる。
X-Codecは音声合成タスクのWERを大幅に削減し、これらの利点を非音声アプリケーションに拡張する。
音声合成における意味情報の統合は,音声生成における言語モデル全体の性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T10:24:07Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - An Initial Investigation for Detecting Vocoder Fingerprints of Fake
Audio [53.134423013599914]
本稿では,偽音声のボコーダ指紋を検出するための新しい問題を提案する。
8つの最先端ボコーダによって合成されたデータセットについて実験を行った。
論文 参考訳(メタデータ) (2022-08-20T09:23:21Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z) - RawNet: Fast End-to-End Neural Vocoder [4.507860128918788]
RawNetは、話者依存および非依存音声合成のための自動エンコーダ構造に基づく、完全なエンドツーエンドのニューラルボコーダである。
入力されたオーディオのより高い表現をキャプチャするコーダネットワークと、サンプルバイサンプル方式でオーディオを復元する自動回帰ボイダネットワークを含む。
論文 参考訳(メタデータ) (2019-04-10T10:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。