Fugu-MT 論文翻訳(概要): Multilateral Temporal-view Pyramid Transformer for Video Inpainting Detection

論文の概要: Multilateral Temporal-view Pyramid Transformer for Video Inpainting Detection

arxiv url: http://arxiv.org/abs/2404.11054v2
Date: Mon, 6 May 2024 09:23:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 22:46:58.378461
Title: Multilateral Temporal-view Pyramid Transformer for Video Inpainting Detection
Title（参考訳）: ビデオ塗布検出用マルチサイドテンポラルピラミッドトランス
Authors: Ying Zhang, Yuezun Li, Bo Peng, Jiaran Zhou, Huiyu Zhou, Junyu Dong,
Abstract要約: 本稿では,空間的時間的手がかりを柔軟に協調する多面的時間的ピラミッド変換器(em MumPy)について紹介する。提案手法は, 空間的・時間的手がかりの様々な協調関係を抽出するために, 新たに設計された多面的時間的視点を用いて, 変形可能なウィンドウベース時間的対話モジュールを導入する。空間的および時間的手がかりの寄与強度を調整することにより, 塗装領域の同定を効果的に行うことができる。
参考スコア（独自算出の注目度）: 41.4800103693756
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The task of video inpainting detection is to expose the pixel-level inpainted regions within a video sequence. Existing methods usually focus on leveraging spatial and temporal inconsistencies. However, these methods typically employ fixed operations to combine spatial and temporal clues, limiting their applicability in different scenarios. In this paper, we introduce a novel Multilateral Temporal-view Pyramid Transformer ({\em MumPy}) that collaborates spatial-temporal clues flexibly. Our method utilizes a newly designed multilateral temporal-view encoder to extract various collaborations of spatial-temporal clues and introduces a deformable window-based temporal-view interaction module to enhance the diversity of these collaborations. Subsequently, we develop a multi-pyramid decoder to aggregate the various types of features and generate detection maps. By adjusting the contribution strength of spatial and temporal clues, our method can effectively identify inpainted regions. We validate our method on existing datasets and also introduce a new challenging and large-scale Video Inpainting dataset based on the YouTube-VOS dataset, which employs several more recent inpainting methods. The results demonstrate the superiority of our method in both in-domain and cross-domain evaluation scenarios.
Abstract（参考訳）: ビデオインペイント検出のタスクは、ビデオシーケンス内でピクセルレベルのインペイントされた領域を公開することである。既存の手法は通常、空間的および時間的不整合の活用に焦点を当てる。しかしながら、これらの手法は通常、空間的および時間的手がかりを組み合わせるために固定的な操作を使用し、異なるシナリオにおける適用性を制限する。本稿では,空間的時間的手がかりを柔軟に協調する多面的時間的ピラミッド変換器({\em MumPy})について紹介する。提案手法は,空間的時間的手がかりの様々なコラボレーションを抽出するために,新たに設計された多面的時間的視点エンコーダを用い,これらのコラボレーションの多様性を高めるために,変形可能なウィンドウベースの時間的視点対話モジュールを導入する。その後,様々な特徴を集約し,検出マップを生成するマルチピラミドデコーダを開発した。空間的および時間的手がかりの寄与強度を調整することにより, 塗装領域の同定を効果的に行うことができる。既存のデータセットに対して本手法の有効性を検証し,YouTube-VOSデータセットに基づく新しい挑戦的かつ大規模なビデオインパインティングデータセットを導入し,さらに最近のインパインティング手法を採用した。その結果,本手法のドメイン内およびドメイン間評価シナリオにおける優位性を示した。

関連論文リスト

DynImg: Key Frames with Visual Prompts are Good Representation for Multi-Modal Video Understanding [19.50051728766238]
ダイナミックイメージ(DynImg)と呼ばれる革新的な映像表現手法を提案する。具体的には,非キーフレームの集合を時間的プロンプトとして導入し,高速移動物体を含む空間領域を強調する。視覚的特徴抽出の過程で、これらのプロンプトは、これらの領域に対応するきめ細かい空間的特徴にさらなる注意を払うようモデルに誘導する。
論文参考訳（メタデータ） (2025-07-21T12:50:49Z)
Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion [27.836518920611557]
本稿では,新しい視点から画像や深度マップを直接生成できる拡散型アーキテクチャMVGDを紹介する。このモデルは、公開データセットから6000万以上のマルチビューサンプルを収集した上でトレーニングします。複数の新しいビュー合成ベンチマーク、マルチビューステレオおよびビデオ深度推定における最先端結果について報告する。
論文参考訳（メタデータ） (2025-01-30T23:43:06Z)
UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2023-08-28T08:20:30Z)
Adaptive Human Matting for Dynamic Videos [62.026375402656754]
Adaptive Matting for Dynamic VideosはAdaMと呼ばれ、背景と背景を同時に区別するフレームワークである。この目的を達成するために、2つの相互接続ネットワーク設計が採用されている。提案手法が最近導入したデータセットをベンチマークし,検討した結果,行列が新たなクラス内でのベスト・イン・クラス・ジェネリザビリティを実現することがわかった。
論文参考訳（メタデータ） (2023-04-12T17:55:59Z)
Implicit View-Time Interpolation of Stereo Videos using Multi-Plane Disparities and Non-Uniform Coordinates [10.445563506186307]
我々は、入力座標と2次元RGB画像間の補間可能なマッピングを近似するX-Fieldsの上に構築する。ステレオビューにおける物体の空間的距離を低減するために,多面的不均一性を提案する。また、X-Fieldsに対するいくつかの単純だが重要な改善も導入します。
論文参考訳（メタデータ） (2023-03-30T06:32:55Z)
Generic Event Boundary Detection in Video with Pyramid Features [12.896848011230523]
ジェネリックイベントバウンダリ検出(GEBD)は、人間が自然にイベントバウンダリを知覚する幅広い多様なアクションセットで、ビデオをチャンクに分割することを目的としている。本稿では,隣接するフレームとピラミッド特徴写像の空間次元と時間次元の相関を考察する。
論文参考訳（メタデータ） (2023-01-11T03:29:27Z)
Detection of Deepfake Videos Using Long Distance Attention [73.6659488380372]
既存のほとんどの検出方法は、問題をバニラ二項分類問題として扱う。本稿では,偽顔と実顔の相違が非常に微妙であるため,特にきめ細かな分類問題として扱われる。大域的な視点で空間的・時間的偽の痕跡を捉えるための2つの要素を持つ時空間モデルを提案する。
論文参考訳（メタデータ） (2021-06-24T08:33:32Z)
DeepMultiCap: Performance Capture of Multiple Characters Using Sparse Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文参考訳（メタデータ） (2021-05-01T14:32:13Z)
Deep Video Matting via Spatio-Temporal Alignment and Aggregation [63.6870051909004]
新たな集計機能モジュール(STFAM)を用いた深層学習型ビデオマッチングフレームワークを提案する。フレーム毎のトリマップアノテーションを排除するため、軽量なインタラクティブなトリマップ伝搬ネットワークも導入されている。私達のフレームワークは従来のビデオマットおよび深いイメージのマットの方法よりかなり優秀です。
論文参考訳（メタデータ） (2021-04-22T17:42:08Z)
Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文参考訳（メタデータ） (2021-03-01T20:48:01Z)
Deep Video Inpainting Detection [95.36819088529622]
映像インペインティング検出は、映像内のインペイント領域を空間的および時間的にローカライズする。 VIDNet, Video Inpainting Detection Networkは、注意モジュールを備えた2ストリームエンコーダデコーダアーキテクチャを含む。
論文参考訳（メタデータ） (2021-01-26T20:53:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。