論文の概要: Spatio-temporal Co-attention Fusion Network for Video Splicing
Localization
- arxiv url: http://arxiv.org/abs/2309.09482v1
- Date: Mon, 18 Sep 2023 04:46:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 15:11:59.714214
- Title: Spatio-temporal Co-attention Fusion Network for Video Splicing
Localization
- Title(参考訳): 映像スプライシング局所化のための時空間コアテンション融合ネットワーク
- Authors: Man Lin, Gang Cao, Zijie Lou
- Abstract要約: 3ストリームネットワークは、複数のフレームにわたる操作トレースをキャプチャするためにエンコーダとして使用される。
軽量多層パーセプトロン(MLP)デコーダを採用し、画素レベルのタンパリングローカライゼーションマップを生成する。
SCFNetをトレーニングするために、新しい大規模ビデオスプライシングが作成されている。
- 参考スコア(独自算出の注目度): 2.3838507844983248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digital video splicing has become easy and ubiquitous. Malicious users copy
some regions of a video and paste them to another video for creating realistic
forgeries. It is significant to blindly detect such forgery regions in videos.
In this paper, a spatio-temporal co-attention fusion network (SCFNet) is
proposed for video splicing localization. Specifically, a three-stream network
is used as an encoder to capture manipulation traces across multiple frames.
The deep interaction and fusion of spatio-temporal forensic features are
achieved by the novel parallel and cross co-attention fusion modules. A
lightweight multilayer perceptron (MLP) decoder is adopted to yield a
pixel-level tampering localization map. A new large-scale video splicing
dataset is created for training the SCFNet. Extensive tests on benchmark
datasets show that the localization and generalization performances of our
SCFNet outperform the state-of-the-art. Code and datasets will be available at
https://github.com/multimediaFor/SCFNet.
- Abstract(参考訳): デジタルビデオスプライシングは簡単でユビキタスになった。
悪意のあるユーザーは、ビデオの一部の領域をコピーして別のビデオにペーストし、現実的な偽造書を作成する。
ビデオ中のこのような偽造領域を盲目的に検出することは重要である。
本稿では,ビデオスプライシングローカライゼーションのための時空間コアテンション融合ネットワーク(SCFNet)を提案する。
具体的には、複数のフレームにわたる操作トレースをキャプチャするエンコーダとして、3ストリームネットワークが使用される。
時空間法医学的特徴の深い相互作用と融合は、新しい並列およびクロスアテンション融合モジュールによって達成される。
軽量多層パーセプトロン(MLP)デコーダを採用し、画素レベルのタンパリングローカライゼーションマップを生成する。
SCFNetをトレーニングするために、新しい大規模ビデオスプライシングデータセットが作成されている。
ベンチマークデータセットの広範なテストは、scfnetのローカライズと一般化のパフォーマンスが最先端を上回っていることを示している。
コードとデータセットはhttps://github.com/multimediaFor/SCFNetで入手できる。
関連論文リスト
- UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - Collect-and-Distribute Transformer for 3D Point Cloud Analysis [82.03517861433849]
本稿では,点雲の短距離・長距離コンテキストを通信するための収集・分散機構を備えた新しい変圧器ネットワークを提案する。
その結果,提案したCDFormerの有効性が示され,ポイントクラウドの分類とセグメンテーションタスクにおける最先端のパフォーマンスがいくつか提供された。
論文 参考訳(メタデータ) (2023-06-02T03:48:45Z) - Adjacent Context Coordination Network for Salient Object Detection in
Optical Remote Sensing Images [102.75699068451166]
本稿では,光RSI-SODのためのエンコーダ・デコーダアーキテクチャにおいて,隣接した特徴のコーディネートを探索するための新しいアジャセントコンテキストコーディネートネットワーク(ACCoNet)を提案する。
提案されたACCoNetは、9つの評価基準の下で22の最先端メソッドを上回り、1つのNVIDIA Titan X GPU上で81fpsで動作する。
論文 参考訳(メタデータ) (2022-03-25T14:14:55Z) - PINs: Progressive Implicit Networks for Multi-Scale Neural
Representations [68.73195473089324]
周波数符号化のインクリメンタルな集合に階層構造を露出するプログレッシブな位置符号化を提案する。
本モデルでは,広帯域のシーンを正確に再構成し,プログレッシブなディテールでシーン表現を学習する。
いくつかの2次元および3次元データセットの実験では、ベースラインと比較して、再構築精度、表現能力、トレーニング速度が改善されている。
論文 参考訳(メタデータ) (2022-02-09T20:33:37Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - MSCFNet: A Lightweight Network With Multi-Scale Context Fusion for
Real-Time Semantic Segmentation [27.232578592161673]
マルチスケールコンテキスト融合スキーム(MSCFNet)を用いた新しい軽量ネットワークを考案する。
提案されたMSCFNetは1.15Mパラメータのみを含み、71.9%のMean IoUを実現し、1つのTitan XP GPU構成で50 FPS以上で実行できる。
論文 参考訳(メタデータ) (2021-03-24T08:28:26Z) - GCF-Net: Gated Clip Fusion Network for Video Action Recognition [11.945392734711056]
本稿では,映像行動認識のためのGated Clip Fusion Network(GCF-Net)を紹介する。
GCF-Netは、ローカルクリップ記述子の受容領域を強化するために、ビデオクリップ間の依存性を明示的にモデル化する。
大規模なベンチマークデータセット(Kinetics-600)では、提案されたGCF-Netは既存のアクション分類器の精度を11.49%向上させる。
論文 参考訳(メタデータ) (2021-02-02T03:51:55Z) - Deep Video Inpainting Detection [95.36819088529622]
映像インペインティング検出は、映像内のインペイント領域を空間的および時間的にローカライズする。
VIDNet, Video Inpainting Detection Networkは、注意モジュールを備えた2ストリームエンコーダデコーダアーキテクチャを含む。
論文 参考訳(メタデータ) (2021-01-26T20:53:49Z) - Temporally Distributed Networks for Fast Video Semantic Segmentation [64.5330491940425]
TDNetは、高速かつ正確なビデオセマンティックセグメンテーションのために設計された時間分散ネットワークである。
我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似することができることを観察した。
Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:43:32Z) - CRVOS: Clue Refining Network for Video Object Segmentation [5.947279761429668]
我々は,これらのシナリオを効率的に処理する中間ネットワークを持たないリアルタイム・ネットワーク,Clue Network for Video Object Refining (CRVOS)を提案する。
提案手法は競合精度の高い既存手法の中で最速のfps速度を示す。
DAVIS 2016では63.5fps、J&Fスコア81.6%を達成した。
論文 参考訳(メタデータ) (2020-02-10T10:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。