論文の概要: A Multimodal Deviation Perceiving Framework for Weakly-Supervised Temporal Forgery Localization
- arxiv url: http://arxiv.org/abs/2507.16596v2
- Date: Mon, 04 Aug 2025 08:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:57.672044
- Title: A Multimodal Deviation Perceiving Framework for Weakly-Supervised Temporal Forgery Localization
- Title(参考訳): 弱教師付き時間的フォージェリーローカライゼーションのためのマルチモーダル偏差認識フレームワーク
- Authors: Wenbo Xu, Junyan Wu, Wei Lu, Xiangyang Luo, Qian Wang,
- Abstract要約: 本研究は,時間的偽造の局所化を弱めるための枠組みを提案する。
ビデオレベルのアノテーションのみを使用して、時間的部分的な鍛造セグメントを特定することを目的としている。
大規模な実験により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 21.13433908232578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current researches on Deepfake forensics often treat detection as a classification task or temporal forgery localization problem, which are usually restrictive, time-consuming, and challenging to scale for large datasets. To resolve these issues, we present a multimodal deviation perceiving framework for weakly-supervised temporal forgery localization (MDP), which aims to identify temporal partial forged segments using only video-level annotations. The MDP proposes a novel multimodal interaction mechanism (MI) and an extensible deviation perceiving loss to perceive multimodal deviation, which achieves the refined start and end timestamps localization of forged segments. Specifically, MI introduces a temporal property preserving cross-modal attention to measure the relevance between the visual and audio modalities in the probabilistic embedding space. It could identify the inter-modality deviation and construct comprehensive video features for temporal forgery localization. To explore further temporal deviation for weakly-supervised learning, an extensible deviation perceiving loss has been proposed, aiming at enlarging the deviation of adjacent segments of the forged samples and reducing that of genuine samples. Extensive experiments demonstrate the effectiveness of the proposed framework and achieve comparable results to fully-supervised approaches in several evaluation metrics.
- Abstract(参考訳): ディープフェイク法医学の最近の研究は、検出を分類タスクまたは時間的フォージェリーローカライゼーション問題として扱うことが多く、これは通常、制限的、時間的、大規模なデータセットのスケールが困難である。
これらの問題を解決するために,ビデオレベルのアノテーションのみを用いて時間的部分的偽造セグメントを特定することを目的とした,弱教師付き時間的偽造局所化(MDP)のためのマルチモーダル偏差認識フレームワークを提案する。
MDPは、新しいマルチモーダル相互作用機構(MI)と、多モーダル偏差を知覚する損失を知覚する拡張可能な偏差を提案し、鍛造セグメントの始点と終端のタイムスタンプの局所化を実現する。
特に、MIは、確率的埋め込み空間における視覚的モーダルとオーディオ的モーダルの関連性を測定するために、モーダル的注意を保った時間的特性を導入している。
モダリティ間の偏差を識別し、時間的フォージェリーローカライゼーションのための包括的なビデオ機能を構築することができる。
弱教師付き学習における時間的偏差のさらなる検討を目的として, 偽造標本の隣接部分の偏差を増大させ, 真の試料の偏差を減少させることを目的として, 拡張可能な偏差知覚損失が提案されている。
大規模な実験では,提案フレームワークの有効性を実証し,いくつかの評価指標において,完全教師付きアプローチに匹敵する結果を得た。
関連論文リスト
- Weakly Supervised Multimodal Temporal Forgery Localization via Multitask Learning [17.800327873103885]
ディープフェイクビデオは信頼の危機を引き起こし、社会の安定を損なう。
本稿では,マルチタスク学習による多モーダル時間的フォージェリーローカライゼーションの弱化を提案する。
広汎な実験によりWS-MTFLにおけるマルチタスク学習の有効性が示された。
論文 参考訳(メタデータ) (2025-08-04T08:22:39Z) - Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - Regularized Contrastive Partial Multi-view Outlier Detection [76.77036536484114]
RCPMOD(Regularized Contrastive partial Multi-view Outlier Detection)と呼ばれる新しい手法を提案する。
このフレームワークでは、コントラスト学習を利用して、ビュー一貫性のある情報を学び、一貫性の度合いでアウトレイラを識別する。
4つのベンチマークデータセットによる実験結果から,提案手法が最先端の競合より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-02T14:34:27Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - Spatio-temporal predictive tasks for abnormal event detection in videos [60.02503434201552]
オブジェクトレベルの正規化パターンを学習するための制約付きプレテキストタスクを提案する。
我々のアプローチは、ダウンスケールの視覚的クエリとそれに対応する正常な外観と運動特性のマッピングを学習することである。
いくつかのベンチマークデータセットの実験では、異常の局所化と追跡のためのアプローチの有効性が示されている。
論文 参考訳(メタデータ) (2022-10-27T19:45:12Z) - An Unsupervised Short- and Long-Term Mask Representation for
Multivariate Time Series Anomaly Detection [2.387411589813086]
本稿では,教師なし短時間・長期マスク表現学習(SLMR)に基づく異常検出手法を提案する。
実験により,本手法の性能は,実世界の3つのデータセットにおいて,他の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-08-19T09:34:11Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - Temporal Attention Unit: Towards Efficient Spatiotemporal Predictive
Learning [42.22064610886404]
予測学習の一般的なフレームワークとして,エンコーダとデコーダがフレーム内の特徴をキャプチャし,中間時間モジュールがフレーム間の依存関係をキャッチする手法を提案する。
時間的モジュールを並列化するために,時間的注意をフレーム内静的な注意とフレーム間動的注意に分解する時間的注意ユニット(TAU)を提案する。
論文 参考訳(メタデータ) (2022-06-24T07:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。