論文の概要: Exploiting Optical Flow Guidance for Transformer-Based Video Inpainting
- arxiv url: http://arxiv.org/abs/2301.10048v2
- Date: Tue, 19 Mar 2024 04:02:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 01:51:05.857260
- Title: Exploiting Optical Flow Guidance for Transformer-Based Video Inpainting
- Title(参考訳): 変圧器による映像塗装における光学的フロー誘導
- Authors: Kaidong Zhang, Jialun Peng, Jingjing Fu, Dong Liu,
- Abstract要約: 本稿では,より効率的かつ効率的な映像インペイントを実現するためのフロー誘導トランス (FGT) を提案する。
FGT++は、既存のビデオインパインティングネットワークよりも優れていると実験的に評価されている。
- 参考スコア(独自算出の注目度): 11.837764007052813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have been widely used for video processing owing to the multi-head self attention (MHSA) mechanism. However, the MHSA mechanism encounters an intrinsic difficulty for video inpainting, since the features associated with the corrupted regions are degraded and incur inaccurate self attention. This problem, termed query degradation, may be mitigated by first completing optical flows and then using the flows to guide the self attention, which was verified in our previous work - flow-guided transformer (FGT). We further exploit the flow guidance and propose FGT++ to pursue more effective and efficient video inpainting. First, we design a lightweight flow completion network by using local aggregation and edge loss. Second, to address the query degradation, we propose a flow guidance feature integration module, which uses the motion discrepancy to enhance the features, together with a flow-guided feature propagation module that warps the features according to the flows. Third, we decouple the transformer along the temporal and spatial dimensions, where flows are used to select the tokens through a temporally deformable MHSA mechanism, and global tokens are combined with the inner-window local tokens through a dual perspective MHSA mechanism. FGT++ is experimentally evaluated to be outperforming the existing video inpainting networks qualitatively and quantitatively.
- Abstract(参考訳): トランスフォーマーはマルチヘッド・セルフアテンション(MHSA)機構によってビデオ処理に広く利用されている。
しかし、MHSA機構は、劣化した領域に付随する特徴が劣化し、不正確な自己注意が生じるため、ビデオ塗布の本質的な困難に遭遇する。
問合せ分解と呼ばれるこの問題は、最初に光学的流れを完了し、フローを用いて自己注意を導くことで緩和される可能性がある。
さらにフローガイダンスを利用してFGT++を提案する。
まず,ローカルアグリゲーションとエッジロスを用いて,軽量なフローコンプリートネットワークを設計する。
第2に、クエリの劣化に対処するために、フロー誘導機能統合モジュールを提案し、フローにしたがって特徴を警告するフロー誘導機能伝搬モジュールとともに、動作の相違を利用して特徴を増強する。
第3に、時間的および空間的次元に沿って変換器を分離し、時間的変形可能なMHSA機構でトークンの選択にフローを使用し、大域トークンは双対視点MHSA機構で内窓局所トークンと結合する。
FGT++は、既存のビデオインパインティングネットワークを質的かつ定量的に上回っていると実験的に評価されている。
関連論文リスト
- A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - Dual-Stream Attention Transformers for Sewer Defect Classification [2.5499055723658097]
効率的な下水道欠陥分類のためのRGBおよび光フロー入力を処理するデュアルストリーム・ビジョン・トランスフォーマアーキテクチャを提案する。
私たちのキーとなるアイデアは、RGBとモーションストリームの相補的な強みを活用するために、自己注意の正則化を使用することです。
自己注意型レギュレータによる動作キューの活用により、RGBアテンションマップの整列と強化を行い、ネットワークが関連する入力領域に集中できるようにする。
論文 参考訳(メタデータ) (2023-11-07T02:31:51Z) - GAFlow: Incorporating Gaussian Attention into Optical Flow [62.646389181507764]
我々はガウス的注意(GA)を光学フローモデルに押し込み、表現学習中に局所特性をアクセントする。
本稿では,既存の Transformer ブロックに簡単に接続可能な新しい Gaussian-Constrained Layer (GCL) を提案する。
動作解析のための新しいガウス誘導注意モジュール(GGAM)を提供する。
論文 参考訳(メタデータ) (2023-09-28T07:46:01Z) - ProPainter: Improving Propagation and Transformer for Video Inpainting [98.70898369695517]
フローベース伝播と計算変換器はビデオインテンポラルにおける2つの主流メカニズムである(VI)
我々は、画像と特徴のワープの利点を組み合わせた二重領域の伝搬を導入し、グローバルな対応を確実に活用する。
また,冗長なトークンを破棄することで高効率を実現するマスク誘導スパースビデオトランスも提案する。
論文 参考訳(メタデータ) (2023-09-07T17:57:29Z) - Flow-Guided Transformer for Video Inpainting [10.31469470212101]
本稿では,光フローが露出する動きのずれを革新的に活用し,高忠実度ビデオインペイントのためのトランスにおける注意検索を指導するフロー誘導型トランスフォーマーを提案する。
完成したフローでは、ビデオフレーム間でコンテンツを伝播し、残りの領域を合成するためにフロー誘導変換器を採用する。
時間的および空間的次元に沿って変換器を分離し、局所的に関連する完了フローを容易に統合し、空間的注意のみを指示できるようにします。
論文 参考訳(メタデータ) (2022-08-14T03:10:01Z) - Implicit Motion-Compensated Network for Unsupervised Video Object
Segmentation [25.41427065435164]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、ビデオシーケンスの背景から一次前景オブジェクトを自動的に分離することを目的としている。
既存のUVOS手法では、視覚的に類似した環境(外観ベース)がある場合や、動的背景と不正確な流れ(フローベース)のために予測品質の劣化に悩まされている場合、堅牢性を欠いている。
本稿では,隣接するフレームから特徴レベルにおける現在のフレームへの一致した動き情報と相補的キュー(textiti.e.$, appearance and motion)を組み合わせた暗黙的動き補償ネットワーク(IMCNet)を提案する。
論文 参考訳(メタデータ) (2022-04-06T13:03:59Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。