論文の概要: Alethia: A Foundational Encoder for Voice Deepfakes
- arxiv url: http://arxiv.org/abs/2605.00251v1
- Date: Thu, 30 Apr 2026 21:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.766951
- Title: Alethia: A Foundational Encoder for Voice Deepfakes
- Title(参考訳): Alethia:音声ディープフェイクのための基礎的エンコーダ
- Authors: Yi Zhu, Brahmi Dwivedi, Jayaram Raghuram, Surya Koppisetti,
- Abstract要約: Alethiaは、様々な音声ディープフェイク検出およびローカライゼーションタスクのための、最初の基礎的なオーディオエンコーダである。
本研究では, 埋没予測と生成事前学習が深層焼成物の捕集に重要であることを示す。
- 参考スコア(独自算出の注目度): 11.181775562633971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing voice deepfake detection and localization models rely heavily on representations extracted from speech foundation models (SFMs). However, downstream finetuning has now reached a state of diminishing returns. In this paper, we shift the focus to pretraining and propose a novel recipe that combines bottleneck masked embedding prediction with flow-matching based spectrogram reconstruction. The outcome, Alethia, is the first foundational audio encoder for various voice deepfake detection and localization tasks. We evaluate on $5$ different tasks with $56$ benchmark datasets, and note Alethia significantly outperforms state-of-the-art SFMs with superior robustness to real-world perturbations and zero-shot generalization to unseen domains (e.g., singing deepfakes). We also demonstrate the limitation of discrete targets in masked token prediction, and show the importance of continuous embedding prediction and generative pretraining for capturing deepfake artifacts.
- Abstract(参考訳): 既存の音声深度検出および局所化モデルは、音声基礎モデル(SFM)から抽出された表現に大きく依存している。
しかし、下流の微調整は今やリターンが減少している状態に達している。
本稿では,事前学習に焦点を移し,ボトルネックマスキングの埋め込み予測とフローマッチングに基づくスペクトログラム再構成を組み合わせた新しいレシピを提案する。
その結果、Alethiaは様々な音声ディープフェイク検出およびローカライゼーションタスクのための、最初の基礎的なオーディオエンコーダとなった。
ベンチマークデータセットを56ドル(約5,800円)で提供する5ドル(約5,800円)のタスクで評価を行い、Alethiaは実世界の摂動に優れたロバスト性と、目に見えないドメイン(例えばディープフェイクを歌うなど)へのゼロショットの一般化で最先端のSFMを著しく上回ります。
また,マスク付きトークン予測における個別目標の限界を示すとともに,連続的な埋め込み予測と生成事前学習の重要性を示す。
関連論文リスト
- AFSS: Artifact-Focused Self-Synthesis for Mitigating Bias in Audio Deepfake Detection [1.1091582432763736]
Artifact-Focused Self-Synthesis (AFSS) は、実際のオーディオから擬似フェイクサンプルを生成するために設計された手法である。
AFSSは同一話者制約を強制し、実と擬似フェイクサンプルが同一話者アイデンティティとセマンティックコンテンツを共有することを保証する。
AFSSの最先端性能は平均5.45%で、WaveFakeでは1.23%、In-the-Wildでは2.70%と大幅に低下した。
論文 参考訳(メタデータ) (2026-03-27T13:36:11Z) - DoPE: Denoising Rotary Position Embedding [60.779039511252584]
トランスフォーマーモデルにおける回転位置埋め込み(RoPE)は、長さを弱める固有の限界を持つ。
ノイズのある特徴写像として位置符号化を用いたアテンションマップを再解釈し、位置補間ページ(DoPE)を提案する。
DoPEは、トランカテッド行列エントロピーに基づくトレーニング不要な手法であり、特徴写像における外乱周波数帯域を検出する。
論文 参考訳(メタデータ) (2025-11-12T09:32:35Z) - Learning Robust Spatial Representations from Binaural Audio through Feature Distillation [64.36563387033921]
データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。
実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
論文 参考訳(メタデータ) (2025-08-28T15:43:15Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
DiMoDifはオーディオ・ビジュアル・ディープフェイク検出フレームワークである。
音声の機械知覚におけるモダリティ間差異を利用する。
時間的にディープフェイクの偽造を特定できる。
論文 参考訳(メタデータ) (2024-11-15T13:47:33Z) - Targeted Augmented Data for Audio Deepfake Detection [11.671275975119089]
そこで本研究では,モデルの決定境界をターゲットとした音声疑似フェイク生成手法を提案する。
敵の攻撃に触発されて、元の実際のデータを摂動させ、不明瞭な予測確率で擬似フェイクを合成する。
論文 参考訳(メタデータ) (2024-07-10T12:31:53Z) - Modeling State Shifting via Local-Global Distillation for Event-Frame Gaze Tracking [61.44701715285463]
本稿では,イベントデータとフレームデータの両方を用いた受動的視線推定の問題に取り組む。
我々は、現在の状態からいくつかの事前登録されたアンカー状態に移行する状態の定量化として、視線推定を再構成する。
大規模視線推定ネットワークを直接学習する代わりに,地域の専門家グループと学生ネットワークを連携させることにより,一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-03-31T03:30:37Z) - Rethinking the Up-Sampling Operations in CNN-based Generative Network
for Generalizable Deepfake Detection [86.97062579515833]
我々は、アップサンプリング操作から生じる一般化された構造的アーティファクトをキャプチャし、特徴付ける手段として、NPR(Neighboring Pixel Relationships)の概念を紹介した。
tft28の異なる生成モデルによって生成されたサンプルを含む、オープンワールドデータセット上で包括的な分析を行う。
この分析は、新しい最先端のパフォーマンスを確立し、既存の手法よりも優れたtft11.6%の向上を示している。
論文 参考訳(メタデータ) (2023-12-16T14:27:06Z) - Multi-Contextual Design of Convolutional Neural Network for Steganalysis [8.631228373008478]
近年のステガノグラフィーの埋め込みは、必ずしも高周波帯への埋め込みを制限せず、埋め込みポリシーに従って配布している。
本研究では,従来の手法とは異なり,まず学習した復号化カーネルを用いて雑音残差を抽出し,信号対雑音比を向上する。
前処理後、スパースノイズ残差は、異種コンテキストサイズを用いてノイズ残差のスパースおよび低振幅表現を学習する新しいマルチコンテキスト畳み込みニューラルネットワーク(M-CNET)に供給される。
論文 参考訳(メタデータ) (2021-06-19T05:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。