論文の概要: DeViT: Deformed Vision Transformers in Video Inpainting
- arxiv url: http://arxiv.org/abs/2209.13925v1
- Date: Wed, 28 Sep 2022 08:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 17:13:01.090289
- Title: DeViT: Deformed Vision Transformers in Video Inpainting
- Title(参考訳): devit: ビデオインペインティングで変形した視覚トランスフォーマー
- Authors: Jiayin Cai, Changlin Li, Xin Tao, Chun Yuan and Yu-Wing Tai
- Abstract要約: Deformed Patch-based Homography (DePtH)を導入して、パッチアライメントによる以前のトランスフォーマーを拡張した。
第2に、パッチワイズ機能マッチングを改善するために、Mask Pruning-based Patch Attention (MPPA)を導入する。
第3に、時空間トークンに対する正確な注意を得るために、時空間重み付け適応器(STA)モジュールを導入する。
- 参考スコア(独自算出の注目度): 59.73019717323264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a novel video inpainting method. We make three main
contributions: First, we extended previous Transformers with patch alignment by
introducing Deformed Patch-based Homography (DePtH), which improves patch-level
feature alignments without additional supervision and benefits challenging
scenes with various deformation. Second, we introduce Mask Pruning-based Patch
Attention (MPPA) to improve patch-wised feature matching by pruning out less
essential features and using saliency map. MPPA enhances matching accuracy
between warped tokens with invalid pixels. Third, we introduce a
Spatial-Temporal weighting Adaptor (STA) module to obtain accurate attention to
spatial-temporal tokens under the guidance of the Deformation Factor learned
from DePtH, especially for videos with agile motions. Experimental results
demonstrate that our method outperforms recent methods qualitatively and
quantitatively and achieves a new state-of-the-art.
- Abstract(参考訳): 本稿では,新しいインペイント手法を提案する。
まず,前回のトランスフォーマーをパッチアライメントで拡張し,変形したパッチベースのホモグラフィ(deep)を導入することで,パッチレベルの機能アライメントを改善した。
第2に,Msk Pruning-based Patch Attention (MPPA)を導入し,より重要でない特徴を抽出し,サリエンシマップを用いることで,パッチワイドな特徴マッチングを改善する。
MPPAは歪んだトークンと無効なピクセルのマッチング精度を高める。
第3に,空間-時間重み付けアダプタ(sta)モジュールを導入し,深度から学習した変形係数の指導の下で空間-時間トークンに正確な注意を向ける。
実験により,本手法は最近の手法を質的,定量的に上回り,新しい最先端技術を実現することを示す。
関連論文リスト
- MS-Former: Memory-Supported Transformer for Weakly Supervised Change
Detection with Patch-Level Annotations [50.79913333804232]
弱い教師付き変化検出のためのメモリ支援トランス (MS-Former) を提案する。
MS-Former は双方向注意ブロック (BAB) とパッチレベルの監視スキーム (PSS) から構成される。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-11-16T09:57:29Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation [73.48323921632506]
パノラマ的セマンティックセマンティックセグメンテーションは2つの重要な課題により未探索である。
まず、変形性パッチ埋め込み(DPE)と変形性(DMLPv2)モジュールを備えたパノラマセマンティックトランス4PASS+を改良したトランスフォーマーを提案する。
第2に、教師なしドメイン適応パノラマセグメンテーションのための擬似ラベル修正により、Mutual Prototypeal Adaptation(MPA)戦略を強化する。
第3に、Pinhole-to-Panoramic(Pin2Pan)適応とは別に、9,080パノラマ画像を用いた新しいデータセット(SynPASS)を作成します。
論文 参考訳(メタデータ) (2022-07-25T00:42:38Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - ViTransPAD: Video Transformer using convolution and self-attention for
Face Presentation Attack Detection [15.70621878093133]
顔の提示攻撃検出(PAD)は,顔の生体認証システムに対するスプーフ攻撃を防ぐ重要な手段である。
PADに対する畳み込みニューラルネットワーク(CNN)に基づく多くの研究は、文脈を考慮せずに画像レベルのバイナリタスクとして問題を定式化している。
本研究では,フレーム内の短距離の局所的細部のみに焦点をあてるだけでなく,フレーム上の長距離依存性をキャプチャできる映像ベースの顔PAD(ViTransPAD)を提案する。
論文 参考訳(メタデータ) (2022-03-03T08:23:20Z) - Short Range Correlation Transformer for Occluded Person
Re-Identification [4.339510167603376]
PFTと呼ばれる部分的特徴変換器に基づく人物識別フレームワークを提案する。
提案したPFTは3つのモジュールを用いて視覚変換器の効率を向上する。
包括的および包括的再同定データセットに対する実験結果から,提案したPFTネットワークが一貫した性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-04T11:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。