論文の概要: Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization
- arxiv url: http://arxiv.org/abs/2407.16554v1
- Date: Tue, 23 Jul 2024 15:07:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 16:55:42.936167
- Title: Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization
- Title(参考訳): 音声の時間的偽造検出と位置推定のための粗大な提案補充フレームワーク
- Authors: Junyan Wu, Wei Lu, Xiangyang Luo, Rui Yang, Qian Wang, Xiaochun Cao,
- Abstract要約: 本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
- 参考スコア(独自算出の注目度): 60.899082019130766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, a novel form of audio partial forgery has posed challenges to its forensics, requiring advanced countermeasures to detect subtle forgery manipulations within long-duration audio. However, existing countermeasures still serve a classification purpose and fail to perform meaningful analysis of the start and end timestamps of partial forgery segments. To address this challenge, we introduce a novel coarse-to-fine proposal refinement framework (CFPRF) that incorporates a frame-level detection network (FDN) and a proposal refinement network (PRN) for audio temporal forgery detection and localization. Specifically, the FDN aims to mine informative inconsistency cues between real and fake frames to obtain discriminative features that are beneficial for roughly indicating forgery regions. The PRN is responsible for predicting confidence scores and regression offsets to refine the coarse-grained proposals derived from the FDN. To learn robust discriminative features, we devise a difference-aware feature learning (DAFL) module guided by contrastive representation learning to enlarge the sensitive differences between different frames induced by minor manipulations. We further design a boundary-aware feature enhancement (BAFE) module to capture the contextual information of multiple transition boundaries and guide the interaction between boundary information and temporal features via a cross-attention mechanism. Extensive experiments show that our CFPRF achieves state-of-the-art performance on various datasets, including LAV-DF, ASVS2019PS, and HAD.
- Abstract(参考訳): 近年、音声部分偽造の新たな形態が法医学に課題を提起し、長期音響における微妙な偽造操作を検出するための高度な対策を必要としている。
しかし、既存の対策はいまだに分類の目的を果たすものであり、部分的フォージェリーセグメントの開始と終了のタイムスタンプを有意義に分析することができない。
この課題に対処するために,フレームレベル検出ネットワーク(FDN)と提案改善ネットワーク(PRN)を組み込んだCFPRF(coarse-to-fine proposal refinement framework)を導入する。
具体的には、FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗いきめ細かな提案を洗練させるために、信頼スコアと回帰オフセットを予測する責任がある。
頑健な識別特徴を学習するために,コントラスト表現学習によって誘導される差分認識特徴学習(DAFL)モジュールを考案し,微調整によって引き起こされる異なるフレーム間の感度差を増大させる。
さらに,複数の遷移境界のコンテキスト情報を捕捉し,境界情報と時間的特徴との相互作用を相互注意機構を介して導く境界対応機能拡張(BAFE)モジュールを設計する。
我々のCFPRFは,LAV-DF,ASVS2019PS,HADなど,さまざまなデータセットで最先端のパフォーマンスを実現している。
関連論文リスト
- Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Enhancing Partially Spoofed Audio Localization with Boundary-aware Attention Mechanism [17.468808107791265]
境界認識注意機構(BAM)と呼ばれる新しい手法を提案する。
BAMは2つのコアモジュールで構成されている。
partialSpoofデータベースの実験結果から,提案手法が最高の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-07-31T13:49:17Z) - FANet: Feature Amplification Network for Semantic Segmentation in Cluttered Background [9.970265640589966]
既存のディープラーニングアプローチでは、複雑なシナリオに存在するセマンティックセグメンテーションにおいて重要なセマンティックな方法が残されている。
マルチステージ機能拡張モジュールを用いて意味情報を組み込んだバックボーンネットワークとして機能増幅ネットワーク(FANet)を提案する。
実験の結果,既存の手法と比較して最先端の性能が示された。
論文 参考訳(メタデータ) (2024-07-12T15:57:52Z) - Deformable Feature Alignment and Refinement for Moving Infrared Dim-small Target Detection [17.765101100010224]
本稿では,変形可能なコンボリューションに基づく変形可能な特徴アライメント・リファインメント(DFAR)手法を提案する。
提案手法はDAUBとIRDSTを含む2つのベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T00:42:25Z) - DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - Transcending Forgery Specificity with Latent Space Augmentation for Generalizable Deepfake Detection [57.646582245834324]
LSDAと呼ばれる簡易で効果的なディープフェイク検出器を提案する。
より多様な偽の表現は、より一般化可能な決定境界を学べるべきである。
提案手法は驚くほど有効であり, 広く使用されている複数のベンチマークで最先端の検出器を超越することを示す。
論文 参考訳(メタデータ) (2023-11-19T09:41:10Z) - Overhead Line Defect Recognition Based on Unsupervised Semantic
Segmentation [8.672676348736834]
オーバーヘッドラインインスペクションは、可視光画像を用いた欠陥認識の恩恵が大きい。
本稿では,Faster RCNNネットワーク上に構築された新しい欠陥認識フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-02T03:52:59Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。