論文の概要: Flow-Guided Transformer for Video Inpainting
- arxiv url: http://arxiv.org/abs/2208.06768v1
- Date: Sun, 14 Aug 2022 03:10:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 13:51:32.381990
- Title: Flow-Guided Transformer for Video Inpainting
- Title(参考訳): ビデオ塗装用フローガイドトランス
- Authors: Kaidong Zhang, Jingjing Fu, Dong Liu
- Abstract要約: 本稿では,光フローが露出する動きのずれを革新的に活用し,高忠実度ビデオインペイントのためのトランスにおける注意検索を指導するフロー誘導型トランスフォーマーを提案する。
完成したフローでは、ビデオフレーム間でコンテンツを伝播し、残りの領域を合成するためにフロー誘導変換器を採用する。
時間的および空間的次元に沿って変換器を分離し、局所的に関連する完了フローを容易に統合し、空間的注意のみを指示できるようにします。
- 参考スコア(独自算出の注目度): 10.31469470212101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a flow-guided transformer, which innovatively leverage the motion
discrepancy exposed by optical flows to instruct the attention retrieval in
transformer for high fidelity video inpainting. More specially, we design a
novel flow completion network to complete the corrupted flows by exploiting the
relevant flow features in a local temporal window. With the completed flows, we
propagate the content across video frames, and adopt the flow-guided
transformer to synthesize the rest corrupted regions. We decouple transformers
along temporal and spatial dimension, so that we can easily integrate the
locally relevant completed flows to instruct spatial attention only.
Furthermore, we design a flow-reweight module to precisely control the impact
of completed flows on each spatial transformer. For the sake of efficiency, we
introduce window partition strategy to both spatial and temporal transformers.
Especially in spatial transformer, we design a dual perspective spatial MHSA,
which integrates the global tokens to the window-based attention. Extensive
experiments demonstrate the effectiveness of the proposed method qualitatively
and quantitatively. Codes are available at https://github.com/hitachinsk/FGT.
- Abstract(参考訳): 本稿では,光フローが露出する動きのずれを革新的に活用し,高忠実度ビデオインペイントのためのトランスにおける注意検索を指導するフロー誘導型トランスフォーマーを提案する。
より具体的には、局所的な時間窓における流れの特徴を利用して、破損した流れを補完する新しいフロー補完ネットワークを設計する。
完成したフローでは、ビデオフレーム間でコンテンツを伝播し、残りの領域を合成するためにフロー誘導変換器を採用する。
変圧器を時空間的次元と空間的次元に分離することにより,局所的関連のある完結した流れを容易に統合し,空間的注意のみを指示できる。
さらに,各空間変圧器に対する完成した流れの影響を正確に制御するフローリウェイトモジュールを設計した。
効率のために,空間的および時間的トランスフォーマーの両方にウィンドウ分割戦略を導入する。
特に空間トランスフォーマでは,ウィンドウベースの注意にグローバルトークンを統合するデュアルパースペクティブ空間mhsaを設計した。
実験により,提案手法の有効性を質的,定量的に検証した。
コードはhttps://github.com/hitachinsk/fgtで入手できる。
関連論文リスト
- A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - WcDT: World-centric Diffusion Transformer for Traffic Scene Generation [13.616763172038846]
本稿では,拡散確率モデルと変圧器の相補的強度を利用して,自律走行軌道生成のための新しい手法を提案する。
提案するフレームワークは,WcDT(World-Centric Diffusion Transformer)と呼ばれ,軌道生成過程全体を最適化する。
提案手法は,現実的かつ多様な軌道を生成する上で,優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-04-02T16:28:41Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - RFR-WWANet: Weighted Window Attention-Based Recovery Feature Resolution
Network for Unsupervised Image Registration [7.446209993071451]
Swin変換器は、その計算効率と長距離モデリング能力のために、医用画像解析に注目を集めている。
トランスフォーマーに基づく登録モデルは、複数のボクセルを単一のセマンティックトークンに結合する。
このマージプロセスは変換器をモデルに制限し、粗い粒度の空間情報を生成する。
本研究では, 高精度な空間情報提供を可能にするRFRNet(Recovery Feature Resolution Network)を提案する。
論文 参考訳(メタデータ) (2023-05-07T09:57:29Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - Exploiting Optical Flow Guidance for Transformer-Based Video Inpainting [11.837764007052813]
本稿では,より効率的かつ効率的な映像インペイントを実現するためのフロー誘導トランス (FGT) を提案する。
FGT++は、既存のビデオインパインティングネットワークよりも優れていると実験的に評価されている。
論文 参考訳(メタデータ) (2023-01-24T14:44:44Z) - Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer [63.99222215387881]
本稿では,視覚変換器の自己モチベーションの遅いトークン進化手法であるEvo-ViTを提案する。
本手法は,画像分類において同等の性能を維持しつつ,視覚変換器の計算コストを大幅に削減することができる。
論文 参考訳(メタデータ) (2021-08-03T09:56:07Z) - Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。
本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。
ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-30T09:48:30Z) - MODETR: Moving Object Detection with Transformers [2.4366811507669124]
移動物体検出(MOD)は、自律走行パイプラインにとって重要なタスクである。
本稿では,空間的および動きの流れを横断するマルチヘッドアテンション機構を用いてこの問題に対処する。
本研究では,移動物体検出TRansformerネットワークであるMODETRを提案する。
論文 参考訳(メタデータ) (2021-06-21T21:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。