論文の概要: TRACE: Training-Free Partial Audio Deepfake Detection via Embedding Trajectory Analysis of Speech Foundation Models
- arxiv url: http://arxiv.org/abs/2604.01083v1
- Date: Wed, 01 Apr 2026 16:12:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.082609
- Title: TRACE: Training-Free Partial Audio Deepfake Detection via Embedding Trajectory Analysis of Speech Foundation Models
- Title(参考訳): TRACE:音声基礎モデルの埋め込み軌道解析による学習不要部分的ディープフェイク検出
- Authors: Awais Khan, Muhammad Umar Farooq, Kutub Uddin, Khalid Malik,
- Abstract要約: 本研究では, TRACE (Training-free Representation-based Audio Countermeasure via Embedding dynamics) を提案する。
TRACEは、トレーニング、ラベル付きデータ、アーキテクチャの変更なしに、凍結音声基礎モデルの表現の1次ダイナミクスを分析する。
6つの音声基礎モデルを用いて2言語にまたがる4つのベンチマークでTRACEを評価した。
- 参考スコア(独自算出の注目度): 6.951909224842812
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Partial audio deepfakes, where synthesized segments are spliced into genuine recordings, are particularly deceptive because most of the audio remains authentic. Existing detectors are supervised: they require frame-level annotations, overfit to specific synthesis pipelines, and must be retrained as new generative models emerge. We argue that this supervision is unnecessary. We hypothesize that speech foundation models implicitly encode a forensic signal: genuine speech forms smooth, slowly varying embedding trajectories, while splice boundaries introduce abrupt disruptions in frame-level transitions. Building on this, we propose TRACE (Training-free Representation-based Audio Countermeasure via Embedding dynamics), a training-free framework that detects partial audio deepfakes by analyzing the first-order dynamics of frozen speech foundation model representations without any training, labeled data, or architectural modification. We evaluate TRACE on four benchmarks that span two languages using six speech foundation models. In PartialSpoof, TRACE achieves 8.08% EER, competitive with fine-tuned supervised baselines. In LlamaPartialSpoof, the most challenging benchmark featuring LLM-driven commercial synthesis, TRACE surpasses a supervised baseline outright (24.12% vs. 24.49% EER) without any target-domain data. These results show that temporal dynamics in speech foundation models provide an effective, generalize signal for training-free audio forensics.
- Abstract(参考訳): 合成されたセグメントが本物の録音にスプリケートされる部分的なオーディオディープフェイクは、ほとんどのオーディオが本物であるため、特に欺かれる。
既存の検出器は、フレームレベルのアノテーションを必要とし、特定の合成パイプラインに過度に適合し、新しい生成モデルが出現するにつれて再訓練されなければならない。
この監督は不要だと主張する。
実際の音声はスムーズでゆっくりと変化する埋め込み軌道を形成し、スプライス境界はフレームレベルの遷移に突然の破壊をもたらす。
そこで本研究では,凍結音声基盤モデル表現の1次ダイナミクスをトレーニングやラベル付きデータ,アーキテクチャ変更なしに解析することにより,部分的なオーディオディープフェイクを検出する学習自由度フレームワークであるTRACEを提案する。
6つの音声基礎モデルを用いて2言語にまたがる4つのベンチマークでTRACEを評価した。
partialSpoofでは、TRACEは8.08%のEERを獲得し、微調整された教師付きベースラインと競合する。
LLM駆動の商用合成を特徴とする最も難しいベンチマークであるLlamaPartialSpoofでは、TRACEはターゲットドメインデータなしで教師付きベースラインアウトライト(24.12%対24.49% EER)を超える。
これらの結果から,音声基礎モデルの時間的ダイナミクスは,学習不要な音声法医学に有効な一般化信号を提供することが示された。
関連論文リスト
- PACE: Pretrained Audio Continual Learning [27.605574463021693]
事前学習モデル(PTM)を用いた音声連続学習(CL)のための最初の体系的ベンチマークを提案する。
さらに、スペクトルに基づく境界認識摂動を導入し、表現の重なりを緩和し、安定性を向上させる。
6つの多様なオーディオCLベンチマークの実験は、PACEが最先端のベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-02-03T10:28:35Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - TACO: Training-free Sound Prompted Segmentation via Semantically Constrained Audio-visual CO-factorization [7.448652734290433]
音声信号で聴く物体に対応する画像領域をセグメント化することを目的として,音声プロンプテッド・セグメンテーションの特定の課題に取り組む。
既存のアプローチの多くは、事前訓練されたモデルを微調整したり、タスク専用の追加モジュールをトレーニングすることでこの問題に対処している。
我々は,非負行列因子化(NMF)を利用した学習自由アプローチを導入し,事前学習したモデルから音声と視覚の特徴を共ファクタし,共通の解釈可能な概念を明らかにする。
論文 参考訳(メタデータ) (2024-12-02T13:39:49Z) - REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR [54.64158282822995]
教師なしASRにおける反復訓練を用いたREBORN, Reinforcement-Learned boundaryを提案する。
ReBORNは、音声信号におけるセグメント構造の境界を予測するセグメンテーションモデルのトレーニングと、セグメンテーションモデルによってセグメント化された音声特徴である音素予測モデルのトレーニングを交互に行い、音素転写を予測する。
我々は、広範囲にわたる実験を行い、同じ条件下で、REBORNは、LibriSpeech、TIMIT、および5つの非英語言語において、以前の教師なしASRモデルよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-02-06T13:26:19Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。