論文の概要: Deepfake Audio Detection Using Self-supervised Fusion Representations
- arxiv url: http://arxiv.org/abs/2605.03420v1
- Date: Tue, 05 May 2026 06:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.807109
- Title: Deepfake Audio Detection Using Self-supervised Fusion Representations
- Title(参考訳): 自己教師型融合表現を用いたディープフェイク音声検出
- Authors: Khalid Zaman, Qixuan Huang, Muhammad Uzair, Masashi Unoki,
- Abstract要約: 本稿では,環境対応音声・音響深度検出チャレンジ(ESDD2)2026への提出について述べる。
入力音声から音声と環境コンテキストの表現を協調的にモデル化する二分岐ディープフェイク検出フレームワークを提案する。
提案システムは,F1スコア70.20%,環境EER16.54%を達成し,ベースラインシステムを上回った。
- 参考スコア(独自算出の注目度): 5.9998333708296245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes a submission to the Environment-Aware Speech and Sound Deepfake Detection Challenge (ESDD2) 2026, which addresses component-level deepfake detection using the CompSpoofV2 dataset, where speech and environmental sounds may be independently manipulated. To address this challenge, a dual-branch deepfake detection framework is proposed to jointly model speech and environmental contextual representations from input audio. Two pretrained models, XLS-R for speech and BEATs for environmental sound, are used to extract complementary contextual representations. A Matching Head is introduced to model representation differences through statistical normalization and representation interaction, enabling estimation of the original class. In parallel, multi-head cross-attention enables effective information exchange between speech and environmental components. The refined representations are processed with residual connections and layer normalization, and passed to an AASIST classifier to predict speech-based and environment-based spoofing probabilities. The model outputs original, speech, and environment predictions. On the test set, the proposed system achieves an F1-score of 70.20% and an environmental EER of 16.54%, outperforming the baseline system.
- Abstract(参考訳): 本稿では,CompSpoofV2データセットを用いたコンポーネントレベルのディープフェイク検出を行うESDD2 2026(Environment-Aware Speech and Sound Deepfake Detection Challenge)について述べる。
この課題に対処するために、入力音声から音声と環境コンテキスト表現を共同でモデル化する二分岐深度検出フレームワークを提案する。
2つの事前学習モデル、音声用XLS-Rと環境音用BEATを用いて、相補的文脈表現を抽出する。
マッチングヘッドは、統計正規化と表現相互作用を通じてモデル表現の違いをモデル化するために導入され、元のクラスを推定できる。
並行して、マルチヘッド・クロスアテンションは、音声と環境コンポーネント間の効果的な情報交換を可能にする。
洗練された表現は残差接続と層正規化で処理され、AASIST分類器に渡されて音声ベースおよび環境ベーススプーフィング確率を予測する。
モデルは、オリジナル、スピーチ、環境予測を出力する。
テストセットでは,F1スコアの70.20%,環境EERの16.54%を達成し,ベースラインシステムを上回った。
関連論文リスト
- SpatialEmb: Extract and Encode Spatial Information for 1-Stage Multi-channel Multi-speaker ASR on Arbitrary Microphone Arrays [45.93777164579776]
本研究では,ASRモデルに対して直接空間情報を抽出し,エンコードするSpatialEmbという軽量な埋め込みモジュールを提案する。
我々は、SpatialEmbの最適モデル設計を決定するために、実際のミーティングコーパスであるAliMeetingの包括的な実験を行う。
105時間でトレーニングした最良のモデルは、EvalとTestセットで17.04%と20.32%の文字エラー率(CER)を達成する。
論文 参考訳(メタデータ) (2026-01-25T23:21:49Z) - Explainable Transformer-CNN Fusion for Noise-Robust Speech Emotion Recognition [2.0391237204597363]
音声感情認識システムは、予測不能な音響干渉にさらされると、しばしば性能が低下する。
本稿では,Wav2Vec 2.0のコンテキストモデリングと1次元畳み込みニューラルネットワークのスペクトル安定性を融合したHybrid Transformer-CNNフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-20T10:05:58Z) - V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow [57.51550409392103]
本稿では,V2SFlowについて紹介する。V2SFlowは,サイレント・トーキング・フェイス・ビデオから直接自然で分かりやすい音声を生成するために設計された,新しいビデオ音声合成(V2S)フレームワークである。
これらの課題に対処するため、音声信号を管理可能な部分空間に分解し、それぞれ異なる音声属性を表現し、視覚入力から直接予測する。
これらの予測属性からコヒーレントでリアルな音声を生成するために,Transformerアーキテクチャ上に構築された正流整合デコーダを用いる。
論文 参考訳(メタデータ) (2024-11-29T05:55:20Z) - Exposing Synthetic Speech: Model Attribution and Detection of AI-generated Speech via Audio Fingerprints [11.703509488782345]
我々は、AI生成音声を検出するためのトレーニング不要で効果的なアプローチを導入する。
本研究では,(1)オープンワールド環境における単一モデル帰属,(2)クローズドワールド環境における多モデル帰属,(3)合成音声と実音声の検知という3つの重要な課題に取り組む。
論文 参考訳(メタデータ) (2024-11-21T10:55:49Z) - Describe Where You Are: Improving Noise-Robustness for Speech Emotion Recognition with Text Description of the Environment [28.491885755907575]
音声感情認識(SER)システムは、周囲ノイズが性能を著しく低下させる現実世界環境でしばしば苦労する。
本稿では,騒音条件下でのSER性能を最大化するために,テスト環境の事前知識を活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T02:30:40Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。