論文の概要: Multilateral Temporal-view Pyramid Transformer for Video Inpainting Detection
- arxiv url: http://arxiv.org/abs/2404.11054v2
- Date: Mon, 6 May 2024 09:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 22:46:58.378461
- Title: Multilateral Temporal-view Pyramid Transformer for Video Inpainting Detection
- Title(参考訳): ビデオ塗布検出用マルチサイドテンポラルピラミッドトランス
- Authors: Ying Zhang, Yuezun Li, Bo Peng, Jiaran Zhou, Huiyu Zhou, Junyu Dong,
- Abstract要約: 本稿では,空間的時間的手がかりを柔軟に協調する多面的時間的ピラミッド変換器(em MumPy)について紹介する。
提案手法は, 空間的・時間的手がかりの様々な協調関係を抽出するために, 新たに設計された多面的時間的視点を用いて, 変形可能なウィンドウベース時間的対話モジュールを導入する。
空間的および時間的手がかりの寄与強度を調整することにより, 塗装領域の同定を効果的に行うことができる。
- 参考スコア(独自算出の注目度): 41.4800103693756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of video inpainting detection is to expose the pixel-level inpainted regions within a video sequence. Existing methods usually focus on leveraging spatial and temporal inconsistencies. However, these methods typically employ fixed operations to combine spatial and temporal clues, limiting their applicability in different scenarios. In this paper, we introduce a novel Multilateral Temporal-view Pyramid Transformer ({\em MumPy}) that collaborates spatial-temporal clues flexibly. Our method utilizes a newly designed multilateral temporal-view encoder to extract various collaborations of spatial-temporal clues and introduces a deformable window-based temporal-view interaction module to enhance the diversity of these collaborations. Subsequently, we develop a multi-pyramid decoder to aggregate the various types of features and generate detection maps. By adjusting the contribution strength of spatial and temporal clues, our method can effectively identify inpainted regions. We validate our method on existing datasets and also introduce a new challenging and large-scale Video Inpainting dataset based on the YouTube-VOS dataset, which employs several more recent inpainting methods. The results demonstrate the superiority of our method in both in-domain and cross-domain evaluation scenarios.
- Abstract(参考訳): ビデオインペイント検出のタスクは、ビデオシーケンス内でピクセルレベルのインペイントされた領域を公開することである。
既存の手法は通常、空間的および時間的不整合の活用に焦点を当てる。
しかしながら、これらの手法は通常、空間的および時間的手がかりを組み合わせるために固定的な操作を使用し、異なるシナリオにおける適用性を制限する。
本稿では,空間的時間的手がかりを柔軟に協調する多面的時間的ピラミッド変換器({\em MumPy})について紹介する。
提案手法は,空間的時間的手がかりの様々なコラボレーションを抽出するために,新たに設計された多面的時間的視点エンコーダを用い,これらのコラボレーションの多様性を高めるために,変形可能なウィンドウベースの時間的視点対話モジュールを導入する。
その後,様々な特徴を集約し,検出マップを生成するマルチピラミドデコーダを開発した。
空間的および時間的手がかりの寄与強度を調整することにより, 塗装領域の同定を効果的に行うことができる。
既存のデータセットに対して本手法の有効性を検証し,YouTube-VOSデータセットに基づく新しい挑戦的かつ大規模なビデオインパインティングデータセットを導入し,さらに最近のインパインティング手法を採用した。
その結果,本手法のドメイン内およびドメイン間評価シナリオにおける優位性を示した。
関連論文リスト
- UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - Implicit View-Time Interpolation of Stereo Videos using Multi-Plane
Disparities and Non-Uniform Coordinates [10.445563506186307]
我々は、入力座標と2次元RGB画像間の補間可能なマッピングを近似するX-Fieldsの上に構築する。
ステレオビューにおける物体の空間的距離を低減するために,多面的不均一性を提案する。
また、X-Fieldsに対するいくつかの単純だが重要な改善も導入します。
論文 参考訳(メタデータ) (2023-03-30T06:32:55Z) - Generic Event Boundary Detection in Video with Pyramid Features [12.896848011230523]
ジェネリックイベントバウンダリ検出(GEBD)は、人間が自然にイベントバウンダリを知覚する幅広い多様なアクションセットで、ビデオをチャンクに分割することを目的としている。
本稿では,隣接するフレームとピラミッド特徴写像の空間次元と時間次元の相関を考察する。
論文 参考訳(メタデータ) (2023-01-11T03:29:27Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Detection of Deepfake Videos Using Long Distance Attention [73.6659488380372]
既存のほとんどの検出方法は、問題をバニラ二項分類問題として扱う。
本稿では,偽顔と実顔の相違が非常に微妙であるため,特にきめ細かな分類問題として扱われる。
大域的な視点で空間的・時間的偽の痕跡を捉えるための2つの要素を持つ時空間モデルを提案する。
論文 参考訳(メタデータ) (2021-06-24T08:33:32Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - Deep Video Matting via Spatio-Temporal Alignment and Aggregation [63.6870051909004]
新たな集計機能モジュール(STFAM)を用いた深層学習型ビデオマッチングフレームワークを提案する。
フレーム毎のトリマップアノテーションを排除するため、軽量なインタラクティブなトリマップ伝搬ネットワークも導入されている。
私達のフレームワークは従来のビデオ マットおよび深いイメージのマットの方法よりかなり優秀です。
論文 参考訳(メタデータ) (2021-04-22T17:42:08Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - Deep Video Inpainting Detection [95.36819088529622]
映像インペインティング検出は、映像内のインペイント領域を空間的および時間的にローカライズする。
VIDNet, Video Inpainting Detection Networkは、注意モジュールを備えた2ストリームエンコーダデコーダアーキテクチャを含む。
論文 参考訳(メタデータ) (2021-01-26T20:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。