論文の概要: Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization
- arxiv url: http://arxiv.org/abs/2506.08493v1
- Date: Tue, 10 Jun 2025 06:40:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.672264
- Title: Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization
- Title(参考訳): 文脈認識型TFL:時空間フォージェリーローカライゼーションのための普遍的文脈認識型コントラスト学習フレームワーク
- Authors: Qilin Yin, Wei Lu, Xiangyang Luo, Xiaochun Cao,
- Abstract要約: 本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
- 参考スコア(独自算出の注目度): 60.73623588349311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most research efforts in the multimedia forensics domain have focused on detecting forgery audio-visual content and reached sound achievements. However, these works only consider deepfake detection as a classification task and ignore the case where partial segments of the video are tampered with. Temporal forgery localization (TFL) of small fake audio-visual clips embedded in real videos is still challenging and more in line with realistic application scenarios. To resolve this issue, we propose a universal context-aware contrastive learning framework (UniCaCLF) for TFL. Our approach leverages supervised contrastive learning to discover and identify forged instants by means of anomaly detection, allowing for the precise localization of temporal forged segments. To this end, we propose a novel context-aware perception layer that utilizes a heterogeneous activation operation and an adaptive context updater to construct a context-aware contrastive objective, which enhances the discriminability of forged instant features by contrasting them with genuine instant features in terms of their distances to the global context. An efficient context-aware contrastive coding is introduced to further push the limit of instant feature distinguishability between genuine and forged instants in a supervised sample-by-sample manner, suppressing the cross-sample influence to improve temporal forgery localization performance. Extensive experimental results over five public datasets demonstrate that our proposed UniCaCLF significantly outperforms the state-of-the-art competing algorithms.
- Abstract(参考訳): マルチメディア法医学領域におけるほとんどの研究は、偽音声・視覚コンテンツの検出と音の達成に重点を置いている。
しかし、これらの研究は、ディープフェイク検出を分類タスクとしてのみ考慮し、ビデオの一部が改ざんされた場合を無視している。
実際のビデオに埋め込まれた小さな偽の音声視覚クリップの時間的フォージェリローカライゼーション(TFL)は、現実的なアプリケーションシナリオといっしょに、いまだに困難である。
そこで本研究では,TFLのための共通文脈対応コントラスト学習フレームワーク(UniCaCLF)を提案する。
提案手法は、教師付きコントラスト学習を利用して、異常検出による偽造瞬間の検出と識別を行い、時間的偽造セグメントの正確な位置決定を可能にする。
そこで本研究では,不均一なアクティベーション操作と適応型コンテキスト更新器を併用したコンテキスト認識層を提案する。
教師付きサンプル・バイ・サンプル方式で、真偽と偽造された瞬間の即時的特徴識別性の限界をさらに押し上げるために、効率的な文脈認識コントラスト符号化を導入し、クロスサンプルの影響を抑え、時間的フォージェリーなローカライゼーション性能を向上させる。
5つの公開データセットに対する大規模な実験結果から、提案したUniCaCLFは最先端の競合アルゴリズムよりも大幅に優れていることが示された。
関連論文リスト
- Weakly-supervised Audio Temporal Forgery Localization via Progressive Audio-language Co-learning Network [17.91342898415867]
既存のATFL手法は、細かいアノテーションを使って効率的なネットワークを訓練することに依存している。
そこで本稿では,ローカライズ性能を高めるために,協調学習と自己超越的手法を取り入れたプログレッシブ・オーディオ・コラーニング・ネットワーク(LOCO)を提案する。
提案したLOCOは3つの公開ベンチマークでSOTA性能を達成する。
論文 参考訳(メタデータ) (2025-05-03T17:57:57Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Counterfactual Cross-modality Reasoning for Weakly Supervised Video
Moment Localization [67.88493779080882]
ビデオモーメントのローカライゼーションは、自然言語クエリに従って、未トリミングされたビデオのターゲットセグメントを取得することを目的としている。
最近の研究は、マスキングクエリの再構築によって引き起こされるモダリティの類似性とは対照的である。
提案手法は, 対実的相互モダリティ推論法である。
論文 参考訳(メタデータ) (2023-08-10T15:45:45Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。