論文の概要: Exploiting Optical Flow Guidance for Transformer-Based Video Inpainting
- arxiv url: http://arxiv.org/abs/2301.10048v1
- Date: Tue, 24 Jan 2023 14:44:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 13:25:21.392677
- Title: Exploiting Optical Flow Guidance for Transformer-Based Video Inpainting
- Title(参考訳): 変圧器による映像塗装における光学的フロー誘導
- Authors: Kaidong Zhang, Jialun Peng, Jingjing Fu, Dong Liu
- Abstract要約: 本稿では,より効率的かつ効率的な映像インペイントを実現するためのフロー誘導トランス (FGT) を提案する。
FGT++は、既存のビデオインパインティングネットワークよりも優れていると実験的に評価されている。
- 参考スコア(独自算出の注目度): 11.184855324609883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have been widely used for video processing owing to the
multi-head self attention (MHSA) mechanism. However, the MHSA mechanism
encounters an intrinsic difficulty for video inpainting, since the features
associated with the corrupted regions are degraded and incur inaccurate self
attention. This problem, termed query degradation, may be mitigated by first
completing optical flows and then using the flows to guide the self attention,
which was verified in our previous work - flow-guided transformer (FGT). We
further exploit the flow guidance and propose FGT++ to pursue more effective
and efficient video inpainting. First, we design a lightweight flow completion
network by using local aggregation and edge loss. Second, to address the query
degradation, we propose a flow guidance feature integration module, which uses
the motion discrepancy to enhance the features, together with a flow-guided
feature propagation module that warps the features according to the flows.
Third, we decouple the transformer along the temporal and spatial dimensions,
where flows are used to select the tokens through a temporally deformable MHSA
mechanism, and global tokens are combined with the inner-window local tokens
through a dual perspective MHSA mechanism. FGT++ is experimentally evaluated to
be outperforming the existing video inpainting networks qualitatively and
quantitatively.
- Abstract(参考訳): トランスフォーマーはマルチヘッド・セルフアテンション(MHSA)機構によってビデオ処理に広く利用されている。
しかし,mhsa機構は,劣化した領域に関連する特徴が劣化し,不正確な自己注意を伴わないため,映像インパインティングが本質的に困難となる。
この問題はクエリ劣化と呼ばれ、最初に光学フローを完了し、フローを使って自己注意を導くことで緩和される可能性がある。
さらにフローガイダンスを活用し,より効率的かつ効率的な映像インペインティングを追求するためにfgt++を提案する。
まず,局所アグリゲーションとエッジ損失を用いて,軽量なフロー補完ネットワークを設計する。
第2に,問合せ劣化に対処するために,動きの不一致を利用して特徴量を高めるフロー誘導機能統合モジュールと,その特徴を特徴量に応じて逸脱させるフロー誘導機能伝達モジュールを提案する。
第3に、時間的および空間的次元に沿って変換器を分離し、時間的変形可能なMHSA機構でトークンの選択にフローを使用し、大域トークンは双対視点MHSA機構で内窓局所トークンと結合する。
FGT++は、既存のビデオインパインティングネットワークを質的かつ定量的に上回っていると実験的に評価されている。
関連論文リスト
- Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Learning Spatial-Frequency Transformer for Visual Object Tracking [15.750739748843744]
最近のトラッカーはTransformerを採用して、広く使われているResNetを新しいバックボーンネットワークとして組み合わせたり置き換えたりしている。
これらの操作は、ターゲットオブジェクトの空間的先行を無視し、最適以下の結果をもたらす可能性があると信じている。
本稿では,GPHA(Spatial Prior and High- frequency emphasis Attention)を同時にモデル化した空間周波数変換器を提案する。
論文 参考訳(メタデータ) (2022-08-18T13:46:12Z) - Flow-Guided Transformer for Video Inpainting [10.31469470212101]
本稿では,光フローが露出する動きのずれを革新的に活用し,高忠実度ビデオインペイントのためのトランスにおける注意検索を指導するフロー誘導型トランスフォーマーを提案する。
完成したフローでは、ビデオフレーム間でコンテンツを伝播し、残りの領域を合成するためにフロー誘導変換器を採用する。
時間的および空間的次元に沿って変換器を分離し、局所的に関連する完了フローを容易に統合し、空間的注意のみを指示できるようにします。
論文 参考訳(メタデータ) (2022-08-14T03:10:01Z) - Implicit Motion-Compensated Network for Unsupervised Video Object
Segmentation [24.091802506425957]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、ビデオシーケンスの背景から一次前景オブジェクトを自動的に分離することを目的としている。
既存のUVOS手法では、視覚的に類似した環境(外観ベース)がある場合や、動的背景と不正確な流れ(フローベース)のために予測品質の劣化に悩まされている場合、堅牢性を欠いている。
本稿では,隣接するフレームから特徴レベルにおける現在のフレームへの一致した動き情報と相補的キュー(textiti.e.$, appearance and motion)を組み合わせた暗黙的動き補償ネットワーク(IMCNet)を提案する。
論文 参考訳(メタデータ) (2022-04-06T13:03:59Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - Video Super-Resolution Transformer [82.46446795318202]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。