論文の概要: Weakly Supervised Multimodal Temporal Forgery Localization via Multitask Learning
- arxiv url: http://arxiv.org/abs/2508.02179v1
- Date: Mon, 04 Aug 2025 08:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.248118
- Title: Weakly Supervised Multimodal Temporal Forgery Localization via Multitask Learning
- Title(参考訳): マルチタスク学習によるマルチモーダル・テンポラル・フォージェリ・ローカライゼーションの弱化
- Authors: Wenbo Xu, Wei Lu, Xiangyang Luo,
- Abstract要約: ディープフェイクビデオは信頼の危機を引き起こし、社会の安定を損なう。
本稿では,マルチタスク学習による多モーダル時間的フォージェリーローカライゼーションの弱化を提案する。
広汎な実験によりWS-MTFLにおけるマルチタスク学習の有効性が示された。
- 参考スコア(独自算出の注目度): 17.800327873103885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The spread of Deepfake videos has caused a trust crisis and impaired social stability. Although numerous approaches have been proposed to address the challenges of Deepfake detection and localization, there is still a lack of systematic research on the weakly supervised multimodal fine-grained temporal forgery localization (WS-MTFL). In this paper, we propose a novel weakly supervised multimodal temporal forgery localization via multitask learning (WMMT), which addresses the WS-MTFL under the multitask learning paradigm. WMMT achieves multimodal fine-grained Deepfake detection and temporal partial forgery localization using merely video-level annotations. Specifically, visual and audio modality detection are formulated as two binary classification tasks. The multitask learning paradigm is introduced to integrate these tasks into a multimodal task. Furthermore, WMMT utilizes a Mixture-of-Experts structure to adaptively select appropriate features and localization head, achieving excellent flexibility and localization precision in WS-MTFL. A feature enhancement module with temporal property preserving attention mechanism is proposed to identify the intra- and inter-modality feature deviation and construct comprehensive video features. To further explore the temporal information for weakly supervised learning, an extensible deviation perceiving loss has been proposed, which aims to enlarge the deviation of adjacent segments of the forged samples and reduce the deviation of genuine samples. Extensive experiments demonstrate the effectiveness of multitask learning for WS-MTFL, and the WMMT achieves comparable results to fully supervised approaches in several evaluation metrics.
- Abstract(参考訳): ディープフェイク動画の普及は、信頼の危機を引き起こし、社会的安定を損なう。
ディープフェイク検出とローカライゼーションの課題に対処するための多くのアプローチが提案されているが、弱い教師付きマルチモーダル微粒時間フォージェリーローカライゼーション(WS-MTFL)に関する体系的な研究はいまだに存在しない。
本稿では,マルチタスク学習パラダイムの下でWS-MTFLに対処する,マルチタスク学習によるマルチモーダル時間的フォージェリーローカライゼーション(WMMT)を提案する。
WMMTはビデオレベルのアノテーションのみを用いて,マルチモーダルなディープフェイク検出と時間的部分的フォージェリーローカライゼーションを実現する。
具体的には、視覚的および音声的モダリティ検出を2つのバイナリ分類タスクとして定式化する。
マルチタスク学習パラダイムを導入し、これらのタスクをマルチモーダルタスクに統合する。
さらに、WMMTはMixture-of-Experts構造を用いて適切な特徴とローカライズヘッドを適応的に選択し、WS-MTFLにおける優れた柔軟性とローカライズ精度を実現する。
モーダリティ内およびモーダリティ間特徴の偏差を識別し、包括的映像特徴を構築するため、時間的特性を保った注目機構を有する特徴強調モジュールを提案する。
弱教師付き学習のための時間的情報をさらに探求するため, 偽造標本の隣接部分の偏差を拡大し, 真の標本の偏差を低減することを目的とした, 拡張可能な偏差知覚損失が提案されている。
広汎な実験によりWS-MTFLにおけるマルチタスク学習の有効性が示され、WMMTは複数の評価指標で完全に教師付きアプローチに匹敵する結果が得られる。
関連論文リスト
- DAMS:Dual-Branch Adaptive Multiscale Spatiotemporal Framework for Video Anomaly Detection [7.117824587276951]
この研究は、マルチレベル特徴とデカップリング融合に基づくDual-Branch Adaptive Multiscale Stemporal Framework (DAMS)と呼ばれるデュアルパスアーキテクチャを提供する。
主処理経路は、適応型マルチスケール時間ピラミッドネットワーク(AMTPN)と畳み込みブロック注意機構(CBAM)を統合している。
論文 参考訳(メタデータ) (2025-07-28T08:42:00Z) - A Multimodal Deviation Perceiving Framework for Weakly-Supervised Temporal Forgery Localization [21.13433908232578]
本研究は,時間的偽造の局所化を弱めるための枠組みを提案する。
ビデオレベルのアノテーションのみを使用して、時間的部分的な鍛造セグメントを特定することを目的としている。
大規模な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-07-22T13:55:16Z) - Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。
本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。
我々のRMLは自己教師型であり、正規化として下流のタスクにも適用できます。
論文 参考訳(メタデータ) (2025-03-06T07:01:08Z) - Multimodal Task Representation Memory Bank vs. Catastrophic Forgetting in Anomaly Detection [6.991692485111346]
教師なし連続異常検出(UCAD)はマルチタスク表現学習において大きな課題に直面している。
本稿では,MTRMB(Multimodal Task Representation Memory Bank)方式を提案する。
MVtec AD と VisA データセットの実験では、MTRMB の優位性が示され、平均検出精度は 0.921 である。
論文 参考訳(メタデータ) (2025-02-10T06:49:54Z) - PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。
重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。
PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文 参考訳(メタデータ) (2025-01-16T08:04:04Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - MTSCI: A Conditional Diffusion Model for Multivariate Time Series Consistent Imputation [41.681869408967586]
主要な研究課題は、どのようにインパルスの整合性を確保するか、すなわち観測値とインパルス値の整合性を確保するかである。
従来の手法は、学習プロセスを導くために、計算対象の帰納的バイアスにのみ依存する。
論文 参考訳(メタデータ) (2024-08-11T10:24:53Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。