論文の概要: Decoupled Spatial-Temporal Transformer for Video Inpainting
- arxiv url: http://arxiv.org/abs/2104.06637v1
- Date: Wed, 14 Apr 2021 05:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:19:38.142390
- Title: Decoupled Spatial-Temporal Transformer for Video Inpainting
- Title(参考訳): ビデオ塗装用デカップリング型時空間変圧器
- Authors: Rui Liu, Hanming Deng, Yangyi Huang, Xiaoyu Shi, Lewei Lu, Wenxiu Sun,
Xiaogang Wang, Jifeng Dai, Hongsheng Li
- Abstract要約: ビデオは、特定の穴をリアルな外観で埋めることを目指していますが、豊かなディープラーニングアプローチでも依然として難しい作業です。
最近の研究は、将来有望なTransformerアーキテクチャをディープビデオのインペイントに導入し、より良いパフォーマンスを実現している。
ビデオインペインティングを優れた効率で改善するため、DSTT(Decoupled Spatial-Temporal Transformer)を提案します。
- 参考スコア(独自算出の注目度): 77.8621673355983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video inpainting aims to fill the given spatiotemporal holes with realistic
appearance but is still a challenging task even with prosperous deep learning
approaches. Recent works introduce the promising Transformer architecture into
deep video inpainting and achieve better performance. However, it still suffers
from synthesizing blurry texture as well as huge computational cost. Towards
this end, we propose a novel Decoupled Spatial-Temporal Transformer (DSTT) for
improving video inpainting with exceptional efficiency. Our proposed DSTT
disentangles the task of learning spatial-temporal attention into 2 sub-tasks:
one is for attending temporal object movements on different frames at same
spatial locations, which is achieved by temporally-decoupled Transformer block,
and the other is for attending similar background textures on same frame of all
spatial positions, which is achieved by spatially-decoupled Transformer block.
The interweaving stack of such two blocks makes our proposed model attend
background textures and moving objects more precisely, and thus the attended
plausible and temporally-coherent appearance can be propagated to fill the
holes. In addition, a hierarchical encoder is adopted before the stack of
Transformer blocks, for learning robust and hierarchical features that maintain
multi-level local spatial structure, resulting in the more representative token
vectors. Seamless combination of these two novel designs forms a better
spatial-temporal attention scheme and our proposed model achieves better
performance than state-of-the-art video inpainting approaches with significant
boosted efficiency.
- Abstract(参考訳): ビデオインペイントは、与えられた時空間の穴を現実的な外観で埋めることを目的としている。
最近の研究は、有望なTransformerアーキテクチャをディープビデオに取り入れ、より良いパフォーマンスを実現している。
しかし、いまだに曖昧なテクスチャの合成と膨大な計算コストに悩まされている。
そこで本研究では,映像の塗装効率を向上する新しいデカップリング型空間時間変換器(DSTT)を提案する。
提案するDSTTは,時間的に分離されたトランスフォーマーブロックと,時間的に分離されたトランスフォーマーブロックと,空間的に分離されたトランスフォーマーブロックによって実現された同じフレーム上で同じ背景テクスチャに,時間的に異なるフレーム上での時間的対象運動に参加するためのタスクである。
これら2つのブロックの干渉スタックにより,提案モデルが背景テクスチャや移動物体により正確に対応できるため,その穴を埋めるために,対応可能な時間的コヒーレントな外観を伝播させることができる。
さらにトランスフォーマーブロックのスタックの前に階層エンコーダを採用し、マルチレベルの局所的な空間構造を維持する堅牢で階層的な特徴を学習し、より代表的なトークンベクトルを生み出す。
これら2つの新デザインのシームレスな組み合わせは,空間的・時間的アテンション・スキームとして優れており,提案モデルは,最先端の映像塗装手法よりも優れた性能を実現し,効率を著しく向上させる。
関連論文リスト
- When Spatial meets Temporal in Action Recognition [34.53091498930863]
本稿では、時間情報を組み込んだ新しい前処理技術であるTIME(Temporal Integration and Motion Enhancement)について紹介する。
TIME層は、元のシーケンスを再構成し、時間順を保ちながら、時間的に進化するフレームを1つの空間グリッドに埋め込むことにより、新しいビデオフレームを生成する。
実験の結果,TIME層は認識精度を高め,映像処理タスクに有用な洞察を提供することがわかった。
論文 参考訳(メタデータ) (2024-11-22T16:39:45Z) - Decouple Content and Motion for Conditional Image-to-Video Generation [6.634105805557556]
条件付きイメージ・トゥ・ビデオ(cI2V)生成は、条件、すなわち1つの画像とテキストから始まり、信じられる新しいビデオを作成することである。
従来のcI2V生成法は、従来のRGBピクセル空間において、動きの一貫性と視覚的連続性のモデリングに制限がある。
本稿では,対象のRGB画素を空間的内容と時間的動きの2つの異なる成分に分解する手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:08:27Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - Blur Interpolation Transformer for Real-World Motion from Blur [52.10523711510876]
本稿では, ボケの時間的相関を解き明かすために, 符号化されたブラー変換器(BiT)を提案する。
マルチスケール残留スウィン変圧器ブロックに基づいて、両端の時間的監督と時間対称なアンサンブル戦略を導入する。
さらに,1対1のぼやけたビデオペアの最初の実世界のデータセットを収集するハイブリッドカメラシステムを設計する。
論文 参考訳(メタデータ) (2022-11-21T13:10:10Z) - Time-Space Transformers for Video Panoptic Segmentation [3.2489082010225494]
画素レベルのセマンティックスとクリップレベルのインスタンスセグメンテーションを同時に予測する手法を提案する。
我々のネットワークはVPS-Transformerと呼ばれ、単一フレームのパノプティクスセグメンテーションのための畳み込みアーキテクチャと、純粋なTransformerブロックのインスタンス化に基づくビデオモジュールを組み合わせる。
論文 参考訳(メタデータ) (2022-10-07T13:30:11Z) - TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。
この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文 参考訳(メタデータ) (2022-03-30T16:31:49Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。