論文の概要: 3-Tracer: A Tri-level Temporal-Aware Framework for Audio Forgery Detection and Localization
- arxiv url: http://arxiv.org/abs/2511.21237v1
- Date: Wed, 26 Nov 2025 10:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.054723
- Title: 3-Tracer: A Tri-level Temporal-Aware Framework for Audio Forgery Detection and Localization
- Title(参考訳): 3-Tracer: オーディオフォージェリー検出と位置検出のための3段階の時間認識フレームワーク
- Authors: Shuhan Xia, Xuannan Liu, Xing Cui, Peipei Li,
- Abstract要約: T3-Tracerは、フレーム、セグメント、オーディオレベルのオーディオを共同で分析して、フォージェリトレースを包括的に検出するフレームワークである。
FA-FAMは,フレームレベルの時間的情報と音声レベルの時間的情報を組み合わせて,フレーム内のフォージェリーキューとグローバルな意味的不整合を検出する。
フレームの特徴とフレーム間の差異を多スケールの時間的ウィンドウ間で共同でモデル化するデュアルブランチアーキテクチャを採用し、鍛造されたバウンダリに現れる突然の異常を効果的に識別する。
- 参考スコア(独自算出の注目度): 15.253944377996477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, partial audio forgery has emerged as a new form of audio manipulation. Attackers selectively modify partial but semantically critical frames while preserving the overall perceptual authenticity, making such forgeries particularly difficult to detect. Existing methods focus on independently detecting whether a single frame is forged, lacking the hierarchical structure to capture both transient and sustained anomalies across different temporal levels. To address these limitations, We identify three key levels relevant to partial audio forgery detection and present T3-Tracer, the first framework that jointly analyzes audio at the frame, segment, and audio levels to comprehensively detect forgery traces. T3-Tracer consists of two complementary core modules: the Frame-Audio Feature Aggregation Module (FA-FAM) and the Segment-level Multi-Scale Discrepancy-Aware Module (SMDAM). FA-FAM is designed to detect the authenticity of each audio frame. It combines both frame-level and audio-level temporal information to detect intra-frame forgery cues and global semantic inconsistencies. To further refine and correct frame detection, we introduce SMDAM to detect forgery boundaries at the segment level. It adopts a dual-branch architecture that jointly models frame features and inter-frame differences across multi-scale temporal windows, effectively identifying abrupt anomalies that appeared on the forged boundaries. Extensive experiments conducted on three challenging datasets demonstrate that our approach achieves state-of-the-art performance.
- Abstract(参考訳): 近年,音声操作の新たな形態として部分的音声偽造が出現している。
攻撃者は、部分的ではあるが意味的に重要なフレームを選択的に修正し、全体的な知覚的正当性を保ち、そのような偽造を特に検出することは困難である。
既存の方法は、1つのフレームが偽造されているかどうかを独立に検出することに集中しており、時間レベルの異なる過渡的および持続的な異常を捕捉する階層構造が欠如している。
これらの制約に対処するため、我々は、部分的なオーディオフォージェリー検出に関連する3つの重要なレベルを特定し、フレーム、セグメント、オーディオレベルを共同で分析し、フォージェリートレースを包括的に検出する最初のフレームワークであるT3-Tracerを提示する。
T3-Tracerは、Frame-Audio Feature Aggregation Module (FA-FAM)とSegment-level Multi-Scale Discrepancy-Aware Module (SMDAM)の2つの補完的なコアモジュールで構成されている。
FA-FAMは、各オーディオフレームの真正性を検出するように設計されている。
フレームレベルの時間情報とオーディオレベルの時間情報を組み合わせて、フレーム内の偽造行為とグローバルな意味的矛盾を検出する。
フレーム検出をより洗練し,正しいものにするために,セグメントレベルでの偽境界検出のためのSMDAMを導入する。
フレームの特徴とフレーム間の差異を多スケールの時間的ウィンドウ間で共同でモデル化するデュアルブランチアーキテクチャを採用し、鍛造されたバウンダリに現れる突然の異常を効果的に識別する。
3つの挑戦的なデータセットに対して行われた大規模な実験は、我々のアプローチが最先端のパフォーマンスを達成することを実証している。
関連論文リスト
- Frequency-Domain Decomposition and Recomposition for Robust Audio-Visual Segmentation [60.9960601057956]
本稿では2つの主要なモジュールからなる周波数対応オーディオ・ビジュアルコンポスタ(FAVS)フレームワークを紹介する。
FAVSフレームワークは、3つのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T12:33:48Z) - TEn-CATG:Text-Enriched Audio-Visual Video Parsing with Multi-Scale Category-Aware Temporal Graph [28.536724593429398]
TEn-CATGは、セマンティックキャリブレーションとカテゴリー対応の時間的推論を組み合わせたテキスト強化AVVPフレームワークである。
弱教師付きAVVPタスクにおいて,TEn-CATGは複雑な時間的および意味的依存関係を捕捉する堅牢性と優れた能力を実現する。
論文 参考訳(メタデータ) (2025-09-04T10:32:40Z) - Dual Semantic-Aware Network for Noise Suppressed Ultrasound Video Segmentation [21.117226880898418]
超音波ビデオセグメンテーションにおける雑音の頑健性を高めるための新しいフレームワークを提案する。
Dual Semantic-Aware Network (DSANet)は、局所的特徴とグローバル的特徴の相互意味認識を促進する。
我々のモデルは画素レベルの特徴依存を回避し、ビデオベース手法よりもはるかに高い推論FPSを実現し、画像ベースモデルを超えている。
論文 参考訳(メタデータ) (2025-07-10T05:41:17Z) - CAD: A General Multimodal Framework for Video Deepfake Detection via Cross-Modal Alignment and Distillation [24.952907733127223]
クロスモーダルアライメント・蒸留(CAD)を用いたビデオディープフェイク検出のための一般的なフレームワークを提案する。
1)高レベルのセマンティックシンセシスにおける矛盾を識別するクロスモーダルアライメント(例:リップ音声ミスマッチ)、2)モダリティ特異的な法医学的痕跡(例:合成音声のスペクトル歪み)を保存しながらミスマッチを緩和するクロスモーダル蒸留(例:合成音声のスペクトル歪み)である。
論文 参考訳(メタデータ) (2025-05-21T08:11:07Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - TranssionADD: A multi-frame reinforcement based sequence tagging model
for audio deepfake detection [11.27584658526063]
第2回Audio Deepfake Detection Challenge (ADD 2023)は、ディープフェイク音声の検出と分析を目的としている。
本稿では,モデルロバストネスと音声セグメント出力の解法として,新しいTranssionADDシステムを提案する。
提案システムの有効性とロバスト性を実証し, トラック2で2位となった。
論文 参考訳(メタデータ) (2023-06-27T05:18:25Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。