論文の概要: NE-PADD: Leveraging Named Entity Knowledge for Robust Partial Audio Deepfake Detection via Attention Aggregation
- arxiv url: http://arxiv.org/abs/2509.03829v1
- Date: Thu, 04 Sep 2025 02:33:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.026072
- Title: NE-PADD: Leveraging Named Entity Knowledge for Robust Partial Audio Deepfake Detection via Attention Aggregation
- Title(参考訳): NE-PADD:アテンションアグリゲーションによるロバスト部分オーディオディープフェイク検出のための名前付きエンティティ知識の活用
- Authors: Huhong Xian, Rui Liu, Berrak Sisman, Haizhou Li,
- Abstract要約: 部分的オーディオディープフェイク検出(PADD)のための新しい手法であるNE-PADDを提案する。
我々は2つのパラレルブランチ、SpeechNER(SpeechNER)とPADD(PADD)を通して名前付きエンティティの知識を活用する。
実験により,提案手法は既存のベースラインよりも優れており,PADDに名前付きエンティティ知識を組み込むことの有効性が証明された。
- 参考スコア(独自算出の注目度): 32.947601197519845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different from traditional sentence-level audio deepfake detection (ADD), partial audio deepfake detection (PADD) requires frame-level positioning of the location of fake speech. While some progress has been made in this area, leveraging semantic information from audio, especially named entities, remains an underexplored aspect. To this end, we propose NE-PADD, a novel method for Partial Audio Deepfake Detection (PADD) that leverages named entity knowledge through two parallel branches: Speech Name Entity Recognition (SpeechNER) and PADD. The approach incorporates two attention aggregation mechanisms: Attention Fusion (AF) for combining attention weights and Attention Transfer (AT) for guiding PADD with named entity semantics using an auxiliary loss. Built on the PartialSpoof-NER dataset, experiments show our method outperforms existing baselines, proving the effectiveness of integrating named entity knowledge in PADD. The code is available at https://github.com/AI-S2-Lab/NE-PADD.
- Abstract(参考訳): 従来の文章レベルのオーディオディープフェイク検出(ADD)とは異なり、部分的なオーディオディープフェイク検出(PADD)は、偽の音声の位置をフレームレベルの位置決めを必要とする。
この領域ではいくつかの進歩があったが、音声、特に名前付きエンティティからのセマンティック情報を活用することは、まだ未解明の側面である。
そこで本研究では,音声名認識(SpeechNER)とPADD(PADD)という2つのパラレルブランチを通じて,名前付きエンティティ知識を活用する部分的オーディオディープフェイク検出(PADD)の新たな手法であるNE-PADDを提案する。
このアプローチには2つのアテンションアグリゲーションメカニズムが組み込まれている。注意重みを結合するためのアテンションフュージョン(AF)と、補助的損失を用いてPADDと名前付きエンティティセマンティクスを導くアテンショントランスファー(AT)である。
PartialSpoof-NERデータセットに基づいて構築された実験では、メソッドが既存のベースラインより優れており、PADDに名前付きエンティティ知識を統合する効果が証明されている。
コードはhttps://github.com/AI-S2-Lab/NE-PADDで公開されている。
関連論文リスト
- Detect Any Sound: Open-Vocabulary Sound Event Detection with Multi-Modal Queries [23.83866791274789]
マルチモーダルクエリによってガイドされるオープン語彙SEDのための問合せベースのフレームワークを提案する。
DASMはSEDをフレームレベルの検索タスクとして定式化し、音声機能はテキストやオーディオプロンプトからのクエリベクトルと一致している。
DASMは、局所化精度と新しいクラスへの一般化のバランスを効果的に保ち、オープン語彙設定においてCLAPベースの手法より優れている。
論文 参考訳(メタデータ) (2025-07-22T08:24:01Z) - Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.17360668423001]
重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。
本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。
実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-05-29T07:47:48Z) - DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
DiMoDifはオーディオ・ビジュアル・ディープフェイク検出フレームワークである。
音声の機械知覚におけるモダリティ間差異を利用する。
時間的にディープフェイクの偽造を特定できる。
論文 参考訳(メタデータ) (2024-11-15T13:47:33Z) - TranssionADD: A multi-frame reinforcement based sequence tagging model
for audio deepfake detection [11.27584658526063]
第2回Audio Deepfake Detection Challenge (ADD 2023)は、ディープフェイク音声の検出と分析を目的としている。
本稿では,モデルロバストネスと音声セグメント出力の解法として,新しいTranssionADDシステムを提案する。
提案システムの有効性とロバスト性を実証し, トラック2で2位となった。
論文 参考訳(メタデータ) (2023-06-27T05:18:25Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - DAMO-NLP at NLPCC-2022 Task 2: Knowledge Enhanced Robust NER for Speech
Entity Linking [32.915297772110364]
Speech Entity Linkingは、音声言語で名前付きエンティティを認識し、曖昧にすることを目的としている。
従来の方法では、未発の音声スタイルや、ASRシステムによって生成されるノイズの多い書き起こしに悩まされる。
本稿では,認知段階における適切な知識を無痛に取り入れることによる堅牢性向上に焦点を当てた知名強化エンティティ認識(KENER)を提案する。
NLPCC-2022共有タスク2のトラック2におけるトラック1とトラック2の1位を達成した。
論文 参考訳(メタデータ) (2022-09-27T06:43:56Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。