論文の概要: Interpretable All-Type Audio Deepfake Detection with Audio LLMs via Frequency-Time Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.02983v1
- Date: Tue, 06 Jan 2026 12:50:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.931697
- Title: Interpretable All-Type Audio Deepfake Detection with Audio LLMs via Frequency-Time Reinforcement Learning
- Title(参考訳): 周波数時間強化学習によるLLMによる全型オーディオディープフェイク検出
- Authors: Yuankun Xie, Xiaoxuan Guo, Jiayi Zhou, Tao Wang, Jian Liu, Ruibo Fu, Xiaopeng Wang, Haonan Cheng, Long Ye,
- Abstract要約: 実世界のオーディオディープフェイク検出には、異種音声をまたいで一般化する全タイプの検出器が必要である。
SFTでALLMをコールドスタートし、ルールベースの周波数時間制約の下でGRPOを適用する2段階トレーニングパラダイムを提案する。
FT-GRPOは、FT-grounded rationalsを生成しながら、全型ADDの最先端性能を実証する実験を行った。
- 参考スコア(独自算出の注目度): 31.51615040769059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in audio large language models (ALLMs) have made high-quality synthetic audio widely accessible, increasing the risk of malicious audio deepfakes across speech, environmental sounds, singing voice, and music. Real-world audio deepfake detection (ADD) therefore requires all-type detectors that generalize across heterogeneous audio and provide interpretable decisions. Given the strong multi-task generalization ability of ALLMs, we first investigate their performance on all-type ADD under both supervised fine-tuning (SFT) and reinforcement fine-tuning (RFT). However, SFT using only binary real/fake labels tends to reduce the model to a black-box classifier, sacrificing interpretability. Meanwhile, vanilla RFT under sparse supervision is prone to reward hacking and can produce hallucinated, ungrounded rationales. To address this, we propose an automatic annotation and polishing pipeline that constructs Frequency-Time structured chain-of-thought (CoT) rationales, producing ~340K cold-start demonstrations. Building on CoT data, we propose Frequency Time-Group Relative Policy Optimization (FT-GRPO), a two-stage training paradigm that cold-starts ALLMs with SFT and then applies GRPO under rule-based frequency-time constraints. Experiments demonstrate that FT-GRPO achieves state-of-the-art performance on all-type ADD while producing interpretable, FT-grounded rationales. The data and code are available online.
- Abstract(参考訳): 音声大言語モデル(ALLM)の最近の進歩は、高品質な合成オーディオを広くアクセスしやすくし、音声、環境音、歌声、音楽にまたがる悪意のあるオーディオディープフェイクのリスクを高めている。
したがって、実世界のオーディオディープフェイク検出(ADD)は、異種オーディオをまたいで一般化し、解釈可能な決定を提供するオールタイプの検出器を必要とする。
ALMの強いマルチタスク一般化能力を考慮して, 教師付き微調整 (SFT) と強化微調整 (RFT) の両面において, オールタイプAMDの性能について検討した。
しかし、2進実数/偽数ラベルのみを使用するSFTは、モデルをブラックボックス分類器に還元する傾向があり、解釈可能性の犠牲となる。
一方、粗末な監視下にあるバニラRFTはハッキングに報奨を与える傾向があり、幻覚的で根拠のない根拠を生み出すことができる。
そこで本研究では,周波数時間構造型チェーン・オブ・シークレット(CoT)合理性を構築し,約340Kのコールドスタートデモを生成する自動アノテーションと研磨パイプラインを提案する。
CoTデータ上に構築された周波数時間群相対ポリシー最適化(FT-GRPO)は、SFTでALLMを冷やし、ルールベースの周波数時間制約の下でGRPOを適用する2段階の訓練パラダイムである。
実験により、FT-GRPOは、FT-grounded rationalsを生成しながら、全型ADDの最先端性能を実現することが示された。
データとコードはオンラインで入手できる。
関連論文リスト
- SONAR: Spectral-Contrastive Audio Residuals for Generalizable Deepfake Detection [6.042897432654865]
Spectral-cONtrastive Audio Residuals (AR)は、ディープフェイクオーディオ検出器のための周波数誘導フレームワークである。
ARは音声信号を補完表現に切り離す。
ASVspoof 2021およびin-the-wildベンチマークで評価した。
論文 参考訳(メタデータ) (2025-11-26T12:16:38Z) - End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文 参考訳(メタデータ) (2025-04-29T16:38:23Z) - Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。
PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。
実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-14T16:03:21Z) - Detect All-Type Deepfake Audio: Wavelet Prompt Tuning for Enhanced Auditory Perception [19.10177637063233]
既存の対策 (CM) は単一型オーディオディープフェイク検出 (ADD) では良好に機能するが, クロスタイプのシナリオでは性能が低下する。
我々は、音声、音声、歌声、音楽のクロスタイプディープフェイク検出を取り入れ、現在のCMを評価するためのオールタイプADDベンチマークを包括的に確立した最初の人物である。
異なる音声タイプの聴覚知覚を考慮し,タイプ不変の聴覚深度情報をキャプチャするためのウェーブレット・プロンプト・チューニング(WPT)-SSL法を提案する。
論文 参考訳(メタデータ) (2025-04-09T10:18:45Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。