論文の概要: Learning Joint Spatial-Temporal Transformations for Video Inpainting
- arxiv url: http://arxiv.org/abs/2007.10247v1
- Date: Mon, 20 Jul 2020 16:35:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 14:06:56.086543
- Title: Learning Joint Spatial-Temporal Transformations for Video Inpainting
- Title(参考訳): ビデオインペインティングのための共同空間時間変換の学習
- Authors: Yanhong Zeng, Jianlong Fu, Hongyang Chao
- Abstract要約: 本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
- 参考スコア(独自算出の注目度): 58.939131620135235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality video inpainting that completes missing regions in video frames
is a promising yet challenging task. State-of-the-art approaches adopt
attention models to complete a frame by searching missing contents from
reference frames, and further complete whole videos frame by frame. However,
these approaches can suffer from inconsistent attention results along spatial
and temporal dimensions, which often leads to blurriness and temporal artifacts
in videos. In this paper, we propose to learn a joint Spatial-Temporal
Transformer Network (STTN) for video inpainting. Specifically, we
simultaneously fill missing regions in all input frames by self-attention, and
propose to optimize STTN by a spatial-temporal adversarial loss. To show the
superiority of the proposed model, we conduct both quantitative and qualitative
evaluations by using standard stationary masks and more realistic moving object
masks. Demo videos are available at https://github.com/researchmm/STTN.
- Abstract(参考訳): ビデオフレームの欠落した領域を仕上げる高品質なビデオ塗装は、有望だが難しい課題だ。
State-of-the-artアプローチでは、参照フレームから欠落したコンテンツを検索してフレームを完了し、フレーム単位で全ビデオフレームを補完するアテンションモデルを採用している。
しかし、これらのアプローチは空間的・時間的次元に沿った不整合な注意結果に悩まされ、しばしばビデオの曖昧さや時間的アーティファクトにつながる。
本稿では,ビデオインペイントのためのSTTN(Spatial-Temporal Transformer Network)について述べる。
具体的には,全入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間的対角損失によるSTTNの最適化を提案する。
提案モデルの優位性を示すため,標準定常マスクとより現実的な移動物体マスクを用いて定量的および定性的評価を行う。
デモビデオはhttps://github.com/researchmm/sttnで見ることができる。
関連論文リスト
- Hierarchical Masked 3D Diffusion Model for Video Outpainting [20.738731220322176]
映像出力のためのマスク付き3次元拡散モデルを提案する。
これにより、複数のビデオクリップ推論の結果を接続するために、複数のガイドフレームを使用することができます。
また, アーティファクトの蓄積問題を緩和するために, 粗大から粗大の推論パイプラインも導入する。
論文 参考訳(メタデータ) (2023-09-05T10:52:21Z) - Unsupervised Video Interpolation by Learning Multilayered 2.5D Motion
Fields [75.81417944207806]
本稿では,ビデオフレーム学習において,単一のビデオのみを必要とする自己教師型アプローチを提案する。
時間変化運動場上に定義された通常の微分可能方程式(ODE)を解くことにより,映像の動きをパラメータ化する。
この暗黙的な神経表現は、ビデオを時空間連続体として学習し、任意の時間分解能でフレーム時間連続体を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:17:05Z) - Spatial-Temporal Residual Aggregation for High Resolution Video
Inpainting [14.035620730770528]
最近の学習ベースの塗装アルゴリズムは、望ましくない物体をビデオから取り除いた後に、欠落した領域を完了させることで、説得力のある結果を得た。
STRA-Netは,高分解能ビデオインペイントのための新しい空間時間残差集約フレームワークである。
定量的および定性的な評価は、高解像度ビデオの現像方法よりも、時間的コヒーレントで視覚的に魅力的な結果が得られることを示している。
論文 参考訳(メタデータ) (2021-11-05T15:50:31Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z) - StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文 参考訳(メタデータ) (2021-07-15T09:58:15Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。