論文の概要: Video Inpainting Localization with Contrastive Learning
- arxiv url: http://arxiv.org/abs/2406.17628v1
- Date: Tue, 25 Jun 2024 15:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 14:00:49.086469
- Title: Video Inpainting Localization with Contrastive Learning
- Title(参考訳): コントラスト学習によるローカライゼーションの映像化
- Authors: Zijie Lou, Gang Cao, Man Lin,
- Abstract要約: ディープ・インペイントは通常、偽ビデオを作成するための重要なオブジェクトを削除する悪質な操作として使用される。
コントロアシブラーニング(ViLocal)を用いた簡易かつ効果的な映像塗装手法を提案する。
- 参考スコア(独自算出の注目度): 2.1210527985139227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep video inpainting is typically used as malicious manipulation to remove important objects for creating fake videos. It is significant to identify the inpainted regions blindly. This letter proposes a simple yet effective forensic scheme for Video Inpainting LOcalization with ContrAstive Learning (ViLocal). Specifically, a 3D Uniformer encoder is applied to the video noise residual for learning effective spatiotemporal forensic features. To enhance the discriminative power, supervised contrastive learning is adopted to capture the local inconsistency of inpainted videos through attracting/repelling the positive/negative pristine and forged pixel pairs. A pixel-wise inpainting localization map is yielded by a lightweight convolution decoder with a specialized two-stage training strategy. To prepare enough training samples, we build a video object segmentation dataset of 2500 videos with pixel-level annotations per frame. Extensive experimental results validate the superiority of ViLocal over state-of-the-arts. Code and dataset will be available at https://github.com/multimediaFor/ViLocal.
- Abstract(参考訳): ディープビデオのインペイントは通常、偽ビデオを作成するための重要なオブジェクトを削除する悪意のある操作として使用される。
塗布された地域を盲目的に識別することは重要である。
本稿では,コントラッシブ・ラーニング(ViLocal)を用いたビデオ・インパインティング・ローカライゼーションの簡易かつ効果的な法医学的手法を提案する。
具体的には、3D Uniformerエンコーダをビデオノイズ残差に適用し、効果的な時空間法医学的特徴を学習する。
識別力を高めるために、教師付きコントラスト学習を採用し、正負のプリスチン対と偽の画素対を誘引し、印字された映像の局所的不整合を捉える。
特殊な2段階のトレーニング戦略を備えた軽量畳み込みデコーダにより、画素ワイドなローカライゼーションマップが得られる。
十分なトレーニングサンプルを作成するために,フレーム単位でピクセルレベルのアノテーションを付加した2500本の動画の映像オブジェクトセグメンテーションデータセットを構築した。
膨大な実験結果から,ViLocalの最先端技術に対する優位性が確認された。
コードとデータセットはhttps://github.com/multimediaFor/ViLocal.comで入手できる。
関連論文リスト
- Trusted Video Inpainting Localization via Deep Attentive Noise Learning [2.1210527985139227]
本稿では,堅牢性と一般化性に優れたTruVIL(Trusted Video Inpainting Localization Network)を提案する。
塗装された痕跡を捉えるために,複数段階の深い注意雑音学習を設計する。
十分なトレーニングサンプルを作成するために,2500本のビデオからなるフレームレベルのビデオオブジェクトセグメンテーションデータセットを構築した。
論文 参考訳(メタデータ) (2024-06-19T14:08:58Z) - Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition [84.31749632725929]
本稿では,この課題の1つの重要な課題,すなわちシーンバイアスに着目し,新しいシーン対応ビデオテキストアライメント手法を提案する。
我々のキーとなる考え方は、映像表現とシーン符号化されたテキスト表現とを区別し、シーンに依存しないビデオ表現を学習し、ドメイン間のアクションを認識することである。
論文 参考訳(メタデータ) (2024-03-03T16:48:16Z) - Learning Transferable Spatiotemporal Representations from Natural Script
Knowledge [65.40899722211726]
本稿では,ASR(TVTS)のためのビデオトランスクリプト(Turning to Video Transcript for ASR)を提案する。
この利点により、我々のモデルは人間のように起きていることを文脈化し、現実世界の大規模未計算ビデオデータにシームレスに適用することができる。
論文 参考訳(メタデータ) (2022-09-30T07:39:48Z) - MILES: Visual BERT Pre-training with Injected Language Semantics for
Video-text Retrieval [43.2299969152561]
ゼロショット・ファインチューン評価プロトコルを用いた4つのデータセットのテキスト・ビデオ検索手法
提案手法は,ゼロショットおよびファインチューン評価プロトコルを用いた4つのデータセット上でのテキスト・ビデオ検索における最先端手法よりも優れる。
論文 参考訳(メタデータ) (2022-04-26T16:06:31Z) - Locality-Aware Inter-and Intra-Video Reconstruction for Self-Supervised
Correspondence Learning [74.03651142051656]
局所性を考慮した映像間再構成フレームワークLIIRを開発した。
クロスビデオ親和性は、統合されたビデオ間およびビデオ内再構成方式において、追加の負のサンプルとして活用する。
論文 参考訳(メタデータ) (2022-03-27T15:46:42Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z) - Deep Video Inpainting Detection [95.36819088529622]
映像インペインティング検出は、映像内のインペイント領域を空間的および時間的にローカライズする。
VIDNet, Video Inpainting Detection Networkは、注意モジュールを備えた2ストリームエンコーダデコーダアーキテクチャを含む。
論文 参考訳(メタデータ) (2021-01-26T20:53:49Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - DVI: Depth Guided Video Inpainting for Autonomous Driving [35.94330601020169]
本稿では,ビデオからトラヒックエージェントを除去する自動インペイントアルゴリズムを提案する。
縫合された点雲から密集した3Dマップを構築することで、ビデオ内のフレームは幾何学的に相関する。
われわれは、ビデオのインペイントのために複数のビデオを融合した最初の人物だ。
論文 参考訳(メタデータ) (2020-07-17T09:29:53Z) - Visual Descriptor Learning from Monocular Video [25.082587246288995]
完全畳み込みネットワークを訓練することにより,RGB画像上の高密度対応性を推定する手法を提案する。
提案手法は,光学的流れから相対的なラベリングを推定するコントラッシブ・ロスを用いてRGBビデオから学習する。
同じバックグラウンドを持つテストデータに対して、メソッドがうまく機能するだけでなく、新しいバックグラウンドを持つ状況にも一般化する。
論文 参考訳(メタデータ) (2020-04-15T11:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。