論文の概要: UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization
- arxiv url: http://arxiv.org/abs/2308.14395v1
- Date: Mon, 28 Aug 2023 08:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 14:51:31.660036
- Title: UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization
- Title(参考訳): UMMAFormer: テンポラルフォージェリーローカライゼーションのためのユニバーサルマルチモーダル適応トランスフォーマフレームワーク
- Authors: Rui Zhang, Hongxia Wang, Mingshan Du, Hanqing Liu, Yang Zhou, Qiang
Zeng
- Abstract要約: 本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 16.963092523737593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of artificial intelligence-generated content (AIGC) has raised
concerns about the authenticity of multimedia content in various fields.
However, existing research for forgery content detection has focused mainly on
binary classification tasks of complete videos, which has limited applicability
in industrial settings. To address this gap, we propose UMMAFormer, a novel
universal transformer framework for temporal forgery localization (TFL) that
predicts forgery segments with multimodal adaptation. Our approach introduces a
Temporal Feature Abnormal Attention (TFAA) module based on temporal feature
reconstruction to enhance the detection of temporal differences. We also design
a Parallel Cross-Attention Feature Pyramid Network (PCA-FPN) to optimize the
Feature Pyramid Network (FPN) for subtle feature enhancement. To evaluate the
proposed method, we contribute a novel Temporal Video Inpainting Localization
(TVIL) dataset specifically tailored for video inpainting scenes. Our
experiments show that our approach achieves state-of-the-art performance on
benchmark datasets, including Lav-DF, TVIL, and Psynd, significantly
outperforming previous methods. The code and data are available at
https://github.com/ymhzyj/UMMAFormer/.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)の出現は、様々な分野におけるマルチメディアコンテンツの信頼性を懸念している。
しかし、既存の偽コンテンツ検出の研究は、主に産業環境での応用性に制限がある完全ビデオのバイナリ分類タスクに焦点を当てている。
このギャップに対処するために,マルチモーダル適応による偽造セグメントの予測を行う,時間的偽造ローカライゼーション(tfl)のための汎用トランスフォーマフレームワークummaformerを提案する。
本手法では、時間的特徴再構成に基づく時間的特徴異常注意(TFAA)モジュールを導入し、時間的差異の検出を強化する。
また、特徴ピラミッドネットワーク(FPN)を微妙な特徴拡張のために最適化するために、並列横断特徴ピラミッドネットワーク(PCA-FPN)を設計する。
提案手法を評価するため,ビデオのインペイントシーンに特化して最適化されたTVILデータセットを新たに提案する。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセット上での最先端性能を実現し,従来の手法よりも優れていた。
コードとデータはhttps://github.com/ymhzyj/ummaformer/で入手できる。
関連論文リスト
- Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - Multi-Resolution Audio-Visual Feature Fusion for Temporal Action
Localization [8.633822294082943]
本稿ではMRAV-FF(Multi-Resolution Audio-Visual Feature Fusion)を紹介する。
MRAV-FFは、異なる時間分解能間でオーディオ視覚データをマージする革新的な手法である。
論文 参考訳(メタデータ) (2023-10-05T10:54:33Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS
Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。
特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文 参考訳(メタデータ) (2022-08-17T14:28:58Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。