論文の概要: An Efficient Temporary Deepfake Location Approach Based Embeddings for
Partially Spoofed Audio Detection
- arxiv url: http://arxiv.org/abs/2309.03036v1
- Date: Wed, 6 Sep 2023 14:29:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 15:16:49.649683
- Title: An Efficient Temporary Deepfake Location Approach Based Embeddings for
Partially Spoofed Audio Detection
- Title(参考訳): 部分スプーフ音声検出のための高効率一時的ディープフェイク位置推定手法に基づく埋め込み
- Authors: Yuankun Xie, Haonan Cheng, Yutian Wang, Long Ye
- Abstract要約: 本稿では,時間的ディープフェイク位置(TDL)という,きめ細かな部分スプーフ音声検出手法を提案する。
提案手法は, 類似モジュールの埋め込みと時間的畳み込み操作という2つの新しい部分を含む。
提案手法は, ASVspoof 2019 partial Spoof データセットのベースラインモデルより優れ, クロスデータセットシナリオにおいても優れた性能を示す。
- 参考スコア(独自算出の注目度): 4.055489363682199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially spoofed audio detection is a challenging task, lying in the need to
accurately locate the authenticity of audio at the frame level. To address this
issue, we propose a fine-grained partially spoofed audio detection method,
namely Temporal Deepfake Location (TDL), which can effectively capture
information of both features and locations. Specifically, our approach involves
two novel parts: embedding similarity module and temporal convolution
operation. To enhance the identification between the real and fake features,
the embedding similarity module is designed to generate an embedding space that
can separate the real frames from fake frames. To effectively concentrate on
the position information, temporal convolution operation is proposed to
calculate the frame-specific similarities among neighboring frames, and
dynamically select informative neighbors to convolution. Extensive experiments
show that our method outperform baseline models in ASVspoof2019 Partial Spoof
dataset and demonstrate superior performance even in the crossdataset scenario.
The code is released online.
- Abstract(参考訳): 部分的にスプーフされた音声検出は難しい作業であり、フレームレベルで音声の真正性を正確に見つける必要がある。
この問題に対処するため,我々は,特徴と位置の情報を効果的に捉えるための,部分的な音声検出手法であるtemporal deepfake location (tdl)を提案する。
具体的には,相似モジュールの埋め込みと時間畳み込み操作という2つの新しい部分を含む。
実際の特徴と偽の特徴の識別を強化するため、埋め込み類似モジュールは、偽のフレームから実際のフレームを分離できる埋め込みスペースを生成するように設計されている。
位置情報を効果的に集中するために、隣接フレーム間のフレーム固有の類似度を算出し、畳み込みを行うために、時間畳み込み操作を提案する。
ASVspoof2019Partial Spoofデータセットでは,提案手法がベースラインモデルより優れており,クロスデータセットシナリオにおいても優れた性能を示している。
コードはオンラインで公開されている。
関連論文リスト
- DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
本稿では,新しいオーディオ・ビジュアル・ディープフェイク検出フレームワークを提案する。
実際のサンプルでは、ディープフェイクとは対照的に、視覚信号と音声信号は情報の観点から一致しているという仮定に基づいている。
ビデオと音声の音声認識に特化しているディープネットワークの機能を、フレームレベルのクロスモーダルな矛盾を見つけるために使用しています。
論文 参考訳(メタデータ) (2024-11-15T13:47:33Z) - Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies [11.671275975119089]
空間領域と時間領域の両方において微妙なアーティファクトを検出するためのきめ細かいメカニズムを提案する。
まず,音声との不整合が生じやすい小さな空間領域を撮影できる局所視覚モデルを提案する。
第2に、トレーニングセットに微妙な時間的不整合を取り入れたサンプルを含む、時間的に局所的な擬似フェイク増強を導入する。
論文 参考訳(メタデータ) (2024-08-13T09:19:59Z) - Enhancing Partially Spoofed Audio Localization with Boundary-aware Attention Mechanism [17.468808107791265]
境界認識注意機構(BAM)と呼ばれる新しい手法を提案する。
BAMは2つのコアモジュールで構成されている。
partialSpoofデータベースの実験結果から,提案手法が最高の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-07-31T13:49:17Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - MomentDiff: Generative Video Moment Retrieval from Random to Real [71.40038773943638]
私たちは、MomentDiffという拡散に基づく生成フレームワークを提供しています。
MomentDiffは、ランダムなブラウジングから段階的なローカライゼーションまで、典型的な人間の検索プロセスをシミュレートする。
MomentDiffは3つの公開ベンチマークで最先端の手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-07-06T09:12:13Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset
and Multimodal Method for Temporal Forgery Localization [19.490174583625862]
LAV-DF(Localized Audio Visual DeepFake)と呼ばれるコンテンツ駆動型オーディオビジュアルディープフェイクデータセットを導入する。
具体的には、映像全体の感情極性を変えるために、コンテンツ駆動型音声視覚操作を戦略的に行う。
提案手法の時間的フォージェリーローカライゼーションとディープフェイク検出タスクに対する強い性能を示す。
論文 参考訳(メタデータ) (2022-04-13T08:02:11Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。