Fugu-MT 論文翻訳(概要): Quantizer-Aware Hierarchical Neural Codec Modeling for Speech Deepfake Detection

論文の概要: Quantizer-Aware Hierarchical Neural Codec Modeling for Speech Deepfake Detection

arxiv url: http://arxiv.org/abs/2603.16914v1
Date: Tue, 10 Mar 2026 09:38:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.250355
Title: Quantizer-Aware Hierarchical Neural Codec Modeling for Speech Deepfake Detection
Title（参考訳）: 音声ディープフェイク検出のための量子化器対応階層型ニューラルコーデックモデリング
Authors: Jinyang Wu, Zihan Pan, Qiquan Zhang, Sailor Hardik Bhupendra, Soumik Mondal,
Abstract要約: 本稿では,音声深度検出のための階層型表現学習フレームワークを提案する。本手法は, ASVspoof 2019では46.2%, ASVspoof5では13.9%のEER削減を実現している。
参考スコア（独自算出の注目度）: 10.201174843022425
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Neural audio codecs discretize speech via residual vector quantization (RVQ), forming a coarse-to-fine hierarchy across quantizers. While codec models have been explored for representation learning, their discrete structure remains underutilized in speech deepfake detection. In particular, different quantization levels capture complementary acoustic cues, where early quantizers encode coarse structure and later quantizers refine residual details that reveal synthesis artifacts. Existing systems either rely on continuous encoder features or ignore this quantizer-level hierarchy. We propose a hierarchy-aware representation learning framework that models quantizer-level contributions through learnable global weighting, enabling structured codec representations aligned with forensic cues. Keeping the speech encoder backbone frozen and updating only 4.4% additional parameters, our method achieves relative EER reductions of 46.2% on ASVspoof 2019 and 13.9% on ASVspoof5 over strong baselines.
Abstract（参考訳）: ニューラルオーディオコーデックは残差ベクトル量子化(RVQ)を介して音声を識別し、量子化器間の粗い階層を形成する。コーデックモデルは、表現学習のために研究されているが、その離散構造は、音声ディープフェイク検出において未利用のままである。特に、異なる量子化レベルは、初期の量子化器が粗い構造をエンコードし、後に量子化器が残留した詳細を洗練し、合成成果物を明らかにする補完的な音響的手がかりを捉えている。既存のシステムは、連続エンコーダ機能に依存しているか、あるいはこの量子化器レベルの階層を無視している。本稿では,学習可能なグローバル重み付けを通じて量化器レベルのコントリビューションをモデル化する階層型表現学習フレームワークを提案する。音声エンコーダのバックボーンの凍結と4.4%の追加パラメータの更新を保ちながら、ASVspoof 2019では46.2%、ASVspoof5では13.9%の相対的なEER削減を実現している。

関連論文リスト

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。 VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文参考訳（メタデータ） (2025-11-28T17:26:34Z)
Spectrogram Patch Codec: A 2D Block-Quantized VQ-VAE and HiFi-GAN for Neural Speech Coding [0.0]
本稿では, 複雑な残差ベクトル量子化スタックの必要性に対して, より単純な単一段階量子化アプローチを導入することにより, ニューラルスピーチを提案する。本手法は,メル・スペクトログラムを直接操作し,それを2次元データとして扱い,重複しない4x4パッチを1つの共有コードブックに定量化する。このパッチワイズ設計はアーキテクチャを単純化し、低レイテンシのストリーミングを可能にし、離散遅延グリッドを生成する。
論文参考訳（メタデータ） (2025-09-02T12:14:41Z)
HH-Codec: High Compression High-fidelity Discrete Neural Codec for Spoken Language Modeling [6.313337261965531]
HH-Codecは、24kHzのオーディオに対して毎秒24トークンで極端な圧縮を実現するニューラルコーデックである。提案手法では,音声言語モデリングのためのベクトル量子化空間を慎重に設計し,情報損失を最小限に抑えながら圧縮効率を最適化する。 HH-Codecは、0.3kbpsの超低帯域で音声再構成における最先端性能を実現する。
論文参考訳（メタデータ） (2025-07-25T02:44:30Z)
L3AC: Towards a Lightweight and Lossless Audio Codec [10.903708510237875]
我々は、単一量子化器と高効率アーキテクチャを活用することで課題に対処する軽量なニューラルオーディオであるL3ACを紹介する。 L3ACは、複数の時間スケールにわたる音響変化を捉えるように設計された新しい構造であるTConvとともに、合理化された畳み込みネットワークとローカルトランスフォーマーモジュールを探索する。
論文参考訳（メタデータ） (2025-04-07T11:34:39Z)
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [63.8735398698683]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。 WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文参考訳（メタデータ） (2024-08-29T13:43:36Z)
High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文参考訳（メタデータ） (2022-10-24T17:52:02Z)
Voice Activity Detection for Transient Noisy Environment Based on Diffusion Nets [13.558688470594674]
過渡音と定常音の音響環境における音声活動検出について検討する。音声フレームと非音声音声フレームの空間パターンを独立に学習し,その基礎となる幾何学的構造を学習する。ディープニューラルネットワークは、音声フレームと非音声フレームを分離するように訓練される。
論文参考訳（メタデータ） (2021-06-25T17:05:26Z)
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文参考訳（メタデータ） (2020-09-06T13:01:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。