Fugu-MT 論文翻訳(概要): Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization

論文の概要: Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization

arxiv url: http://arxiv.org/abs/2407.16554v1
Date: Tue, 23 Jul 2024 15:07:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 16:55:42.936167
Title: Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization
Title（参考訳）: 音声の時間的偽造検出と位置推定のための粗大な提案補充フレームワーク
Authors: Junyan Wu, Wei Lu, Xiangyang Luo, Rui Yang, Qian Wang, Xiaochun Cao,
Abstract要約: 本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。 FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。 PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
参考スコア（独自算出の注目度）: 60.899082019130766
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, a novel form of audio partial forgery has posed challenges to its forensics, requiring advanced countermeasures to detect subtle forgery manipulations within long-duration audio. However, existing countermeasures still serve a classification purpose and fail to perform meaningful analysis of the start and end timestamps of partial forgery segments. To address this challenge, we introduce a novel coarse-to-fine proposal refinement framework (CFPRF) that incorporates a frame-level detection network (FDN) and a proposal refinement network (PRN) for audio temporal forgery detection and localization. Specifically, the FDN aims to mine informative inconsistency cues between real and fake frames to obtain discriminative features that are beneficial for roughly indicating forgery regions. The PRN is responsible for predicting confidence scores and regression offsets to refine the coarse-grained proposals derived from the FDN. To learn robust discriminative features, we devise a difference-aware feature learning (DAFL) module guided by contrastive representation learning to enlarge the sensitive differences between different frames induced by minor manipulations. We further design a boundary-aware feature enhancement (BAFE) module to capture the contextual information of multiple transition boundaries and guide the interaction between boundary information and temporal features via a cross-attention mechanism. Extensive experiments show that our CFPRF achieves state-of-the-art performance on various datasets, including LAV-DF, ASVS2019PS, and HAD.
Abstract（参考訳）: 近年、音声部分偽造の新たな形態が法医学に課題を提起し、長期音響における微妙な偽造操作を検出するための高度な対策を必要としている。しかし、既存の対策はいまだに分類の目的を果たすものであり、部分的フォージェリーセグメントの開始と終了のタイムスタンプを有意義に分析することができない。この課題に対処するために,フレームレベル検出ネットワーク(FDN)と提案改善ネットワーク(PRN)を組み込んだCFPRF(coarse-to-fine proposal refinement framework)を導入する。具体的には、FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。 PRNは、FDNから派生した粗いきめ細かな提案を洗練させるために、信頼スコアと回帰オフセットを予測する責任がある。頑健な識別特徴を学習するために,コントラスト表現学習によって誘導される差分認識特徴学習(DAFL)モジュールを考案し,微調整によって引き起こされる異なるフレーム間の感度差を増大させる。さらに,複数の遷移境界のコンテキスト情報を捕捉し,境界情報と時間的特徴との相互作用を相互注意機構を介して導く境界対応機能拡張(BAFE)モジュールを設計する。我々のCFPRFは,LAV-DF,ASVS2019PS,HADなど,さまざまなデータセットで最先端のパフォーマンスを実現している。

関連論文リスト

Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。意味論の欠如により、異種表現は誤った一致につながる可能性がある。モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文参考訳（メタデータ） (2025-07-28T11:46:35Z)
A Multimodal Deviation Perceiving Framework for Weakly-Supervised Temporal Forgery Localization [21.13433908232578]
本研究は,時間的偽造の局所化を弱めるための枠組みを提案する。ビデオレベルのアノテーションのみを使用して、時間的部分的な鍛造セグメントを特定することを目的としている。大規模な実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2025-07-22T13:55:16Z)
Frame-level Temporal Difference Learning for Partial Deepfake Speech Detection [16.923285534924116]
不自然な時間変動を識別する部分的な深度検出を再定義する時間差注意モジュール(TDAM)を提案する。二重レベルの階層的差分表現は、微細なスケールと粗いスケールの両方で時間的不規則性を捕捉する一方、適応的な平均プーリングは、情報損失を最小限に抑えるために、可変長入力における必須パターンを保存する。当社のTDAM-AvgPoolモデルは,PartialSpoofデータセットで0.59%,HADデータセットで0.03%,最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-07-20T19:46:23Z)
Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文参考訳（メタデータ） (2025-06-10T06:40:43Z)
FDDet: Frequency-Decoupling for Boundary Refinement in Temporal Action Detection [4.015022008487465]
大規模な事前訓練されたビデオエンコーダは、背景の乱雑さと無関係なセマンティクスを導入し、コンテキストの混乱と境界に繋がる。本稿では,事前学習したモデルから得られた雑音のセマンティクスをフィルタリングすることで,行動識別性を向上させる周波数対応デカップリングネットワークを提案する。本手法は時間的行動検出ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-01T10:57:37Z)
Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文参考訳（メタデータ） (2024-08-05T08:35:59Z)
Enhancing Partially Spoofed Audio Localization with Boundary-aware Attention Mechanism [17.468808107791265]
境界認識注意機構(BAM)と呼ばれる新しい手法を提案する。 BAMは2つのコアモジュールで構成されている。 partialSpoofデータベースの実験結果から,提案手法が最高の性能を実現することを示す。
論文参考訳（メタデータ） (2024-07-31T13:49:17Z)
FANet: Feature Amplification Network for Semantic Segmentation in Cluttered Background [9.970265640589966]
既存のディープラーニングアプローチでは、複雑なシナリオに存在するセマンティックセグメンテーションにおいて重要なセマンティックな方法が残されている。マルチステージ機能拡張モジュールを用いて意味情報を組み込んだバックボーンネットワークとして機能増幅ネットワーク(FANet)を提案する。実験の結果,既存の手法と比較して最先端の性能が示された。
論文参考訳（メタデータ） (2024-07-12T15:57:52Z)
Deformable Feature Alignment and Refinement for Moving Infrared Dim-small Target Detection [17.765101100010224]
本稿では,変形可能なコンボリューションに基づく変形可能な特徴アライメント・リファインメント(DFAR)手法を提案する。提案手法はDAUBとIRDSTを含む2つのベンチマークデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2024-07-10T00:42:25Z)
DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文参考訳（メタデータ） (2024-02-03T06:49:42Z)
Transcending Forgery Specificity with Latent Space Augmentation for Generalizable Deepfake Detection [57.646582245834324]
LSDAと呼ばれる簡易で効果的なディープフェイク検出器を提案する。より多様な偽の表現は、より一般化可能な決定境界を学べるべきである。提案手法は驚くほど有効であり, 広く使用されている複数のベンチマークで最先端の検出器を超越することを示す。
論文参考訳（メタデータ） (2023-11-19T09:41:10Z)
Overhead Line Defect Recognition Based on Unsupervised Semantic Segmentation [8.672676348736834]
オーバーヘッドラインインスペクションは、可視光画像を用いた欠陥認識の恩恵が大きい。本稿では,Faster RCNNネットワーク上に構築された新しい欠陥認識フレームワークを提案する。
論文参考訳（メタデータ） (2023-11-02T03:52:59Z)
Small Object Detection via Coarse-to-fine Proposal Generation and Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。 CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文参考訳（メタデータ） (2023-08-18T13:13:09Z)
Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。 IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。 IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文参考訳（メタデータ） (2021-03-02T08:20:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。