論文の概要: Enhancing Partially Spoofed Audio Localization with Boundary-aware Attention Mechanism
- arxiv url: http://arxiv.org/abs/2407.21611v2
- Date: Mon, 19 Aug 2024 16:09:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 01:49:20.494368
- Title: Enhancing Partially Spoofed Audio Localization with Boundary-aware Attention Mechanism
- Title(参考訳): 境界認識型アテンション機構による部分的発声音像定位の実現
- Authors: Jiafeng Zhong, Bin Li, Jiangyan Yi,
- Abstract要約: 境界認識注意機構(BAM)と呼ばれる新しい手法を提案する。
BAMは2つのコアモジュールで構成されている。
partialSpoofデータベースの実験結果から,提案手法が最高の性能を実現することを示す。
- 参考スコア(独自算出の注目度): 17.468808107791265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of partially spoofed audio localization aims to accurately determine audio authenticity at a frame level. Although some works have achieved encouraging results, utilizing boundary information within a single model remains an unexplored research topic. In this work, we propose a novel method called Boundary-aware Attention Mechanism (BAM). Specifically, it consists of two core modules: Boundary Enhancement and Boundary Frame-wise Attention. The former assembles the intra-frame and inter-frame information to extract discriminative boundary features that are subsequently used for boundary position detection and authenticity decision, while the latter leverages boundary prediction results to explicitly control the feature interaction between frames, which achieves effective discrimination between real and fake frames. Experimental results on PartialSpoof database demonstrate our proposed method achieves the best performance. The code is available at https://github.com/media-sec-lab/BAM.
- Abstract(参考訳): 部分的にスプーフされた音像定位作業は,フレームレベルでの音像の正当性を正確に判定することを目的としている。
いくつかの研究は奨励的な成果を上げているが、単一のモデルにおける境界情報の利用は未調査の研究トピックのままである。
本研究では,BAM(Boundary-Aware Attention Mechanism)と呼ばれる新しい手法を提案する。
具体的には、境界拡張(Boundary Enhancement)と境界フレーム(Bundary Frame-wise Attention)の2つのコアモジュールで構成されている。
前者はフレーム内およびフレーム間情報を組み立て、その後境界位置検出および認証決定に使用される識別境界特徴を抽出し、後者は境界予測結果を利用してフレーム間の特徴相互作用を明示的に制御し、実フレームと偽フレームの効果的な識別を実現する。
partialSpoofデータベースの実験結果から,提案手法が最高の性能を実現することを示す。
コードはhttps://github.com/media-sec-lab/BAMで公開されている。
関連論文リスト
- Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Boundary Discretization and Reliable Classification Network for Temporal Action Detection [39.17204328036531]
時間的アクション検出は、アクションカテゴリを認識し、各アクションインスタンスの開始と終了の時間を未トリミングビデオで決定することを目的としている。
混合手法は、アンカーベースとアンカーフリーのアプローチをシームレスにマージすることで、優れたパフォーマンスを実現している。
本稿では,境界離散化と信頼性のある分類モジュールを導入することで,上記の問題に対処する新しい境界離散化・信頼性分類ネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T08:14:24Z) - Local Compressed Video Stream Learning for Generic Event Boundary
Detection [25.37983456118522]
イベント境界検出は、ビデオをチャンクに分割する一般的な分類なしのイベント境界をローカライズすることを目的としている。
既存の方法は、通常、ネットワークに入力する前にビデオフレームをデコードする必要がある。
本稿では,圧縮領域におけるリッチな情報を活用する完全エンドツーエンドのイベント境界検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-27T06:49:40Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - An Efficient Temporary Deepfake Location Approach Based Embeddings for
Partially Spoofed Audio Detection [4.055489363682199]
本稿では,時間的ディープフェイク位置(TDL)という,きめ細かな部分スプーフ音声検出手法を提案する。
提案手法は, 類似モジュールの埋め込みと時間的畳み込み操作という2つの新しい部分を含む。
提案手法は, ASVspoof 2019 partial Spoof データセットのベースラインモデルより優れ, クロスデータセットシナリオにおいても優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-06T14:29:29Z) - Rethinking the Video Sampling and Reasoning Strategies for Temporal
Sentence Grounding [64.99924160432144]
時間的文グラウンドディング(TSG)は、特定のセグメントの時間的境界を文問合せによってビデオから識別することを目的としている。
本稿では,TSG のための新しいサイムズサンプリング・推論ネットワーク (SSRN) を提案し,シムズサンプリング機構を導入し,追加のコンテキストフレームを生成する。
論文 参考訳(メタデータ) (2023-01-02T03:38:22Z) - Synthesize Boundaries: A Boundary-aware Self-consistent Framework for
Weakly Supervised Salient Object Detection [8.951168425295378]
設計した合成画像とラベルから正確な境界を学習することを提案する。
合成画像は、塩物の実凹部を模擬する合成凹部を挿入することにより境界情報を生成する。
また,グローバル積分分枝 (GIB) と境界認識分枝 (BAB) から構成される新たな自己整合性フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-04T08:22:45Z) - Temporal Perceiver: A General Architecture for Arbitrary Boundary
Detection [48.33132632418303]
ジェネリック境界検出(GBD)は、動画をセマンティック・コヒーレントと分類なしの単位に分割する一般的な境界を特定することを目的としている。
従来の研究では、単純なCNNからLSTMまでの複雑なディープネットワークの設計で、これらの異なるレベルの汎用境界を別々に扱っていた。
本稿では,Transformer を用いた汎用アーキテクチャである Temporal Perceiver について述べる。
論文 参考訳(メタデータ) (2022-03-01T09:31:30Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。