論文の概要: Short-Term and Long-Term Context Aggregation Network for Video
Inpainting
- arxiv url: http://arxiv.org/abs/2009.05721v1
- Date: Sat, 12 Sep 2020 03:50:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 08:07:46.727168
- Title: Short-Term and Long-Term Context Aggregation Network for Video
Inpainting
- Title(参考訳): 映像インパインティングのための短期的・長期的コンテキスト集約ネットワーク
- Authors: Ang Li, Shanshan Zhao, Xingjun Ma, Mingming Gong, Jianzhong Qi, Rui
Zhang, Dacheng Tao, Ramamohanarao Kotagiri
- Abstract要約: Video Inpaintingは、ビデオの欠落した領域を復元することを目的としており、ビデオ編集やオブジェクト削除など多くのアプリケーションがある。
本稿では,映像インパインティングにおいて,短期・長期のフレーム情報を効果的に活用する新しいコンテキスト集約ネットワークを提案する。
実験により,最先端の手法よりも優れた塗布結果と高速塗布速度が得られた。
- 参考スコア(独自算出の注目度): 126.06302824297948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video inpainting aims to restore missing regions of a video and has many
applications such as video editing and object removal. However, existing
methods either suffer from inaccurate short-term context aggregation or rarely
explore long-term frame information. In this work, we present a novel context
aggregation network to effectively exploit both short-term and long-term frame
information for video inpainting. In the encoding stage, we propose
boundary-aware short-term context aggregation, which aligns and aggregates,
from neighbor frames, local regions that are closely related to the boundary
context of missing regions into the target frame. Furthermore, we propose
dynamic long-term context aggregation to globally refine the feature map
generated in the encoding stage using long-term frame features, which are
dynamically updated throughout the inpainting process. Experiments show that it
outperforms state-of-the-art methods with better inpainting results and fast
inpainting speed.
- Abstract(参考訳): Video Inpaintingは、ビデオの欠落した領域を復元することを目的としており、ビデオ編集やオブジェクト削除など多くのアプリケーションがある。
しかし、既存の手法は、不正確な短期的文脈集約に悩まされるか、あるいは長期的フレーム情報を調べることは滅多にない。
本研究では,映像インパインティングにおいて,短期・長期のフレーム情報を効果的に活用する新しいコンテキストアグリゲーションネットワークを提案する。
符号化の段階では,隣接するフレームから,不足領域の境界コンテキストと密接に関連した局所領域を対象フレームにアライメントし,アグリゲーションする境界対応短期文脈アグリゲーションを提案する。
さらに, インペインティングプロセスを通じて動的に更新される長期フレーム機能を用いて, エンコーディング段階で生成された特徴マップをグローバルに洗練するために, 動的長期コンテキストアグリゲーションを提案する。
実験により,最先端の手法よりも優れた塗装結果と高速塗装速度が得られた。
関連論文リスト
- Semantically Consistent Video Inpainting with Conditional Diffusion Models [16.42354856518832]
本稿では,条件付きビデオ拡散モデルを用いた問題解決フレームワークを提案する。
我々は,コンテキストにおける重要な長距離依存関係をキャプチャする塗装特化サンプリングスキームを導入する。
不完全フレーム中の既知の画素を条件付けするための新しい手法を考案する。
論文 参考訳(メタデータ) (2024-04-30T23:49:26Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Exemplar-based Video Colorization with Long-term Spatiotemporal
Dependency [10.223719035434586]
外見に基づく映像のカラー化は、古い映画復元のような応用に欠かせない技術である。
本稿では,長期間の時間依存性を考慮したビデオカラー化フレームワークを提案する。
我々のモデルは、特に物体が大きく不規則に変化する場面において、よりカラフルでリアルで安定した結果を生み出すことができる。
論文 参考訳(メタデータ) (2023-03-27T10:45:00Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z) - Spatial-Temporal Residual Aggregation for High Resolution Video
Inpainting [14.035620730770528]
最近の学習ベースの塗装アルゴリズムは、望ましくない物体をビデオから取り除いた後に、欠落した領域を完了させることで、説得力のある結果を得た。
STRA-Netは,高分解能ビデオインペイントのための新しい空間時間残差集約フレームワークである。
定量的および定性的な評価は、高解像度ビデオの現像方法よりも、時間的コヒーレントで視覚的に魅力的な結果が得られることを示している。
論文 参考訳(メタデータ) (2021-11-05T15:50:31Z) - Internal Video Inpainting by Implicit Long-range Propagation [39.89676105875726]
本稿では,内部学習戦略を取り入れた映像インパインティングのための新しいフレームワークを提案する。
畳み込みニューラルネットワークを既知の領域に適合させることにより、暗黙的に実現可能であることを示す。
提案手法を別の課題に拡張する: 4Kビデオの1フレームに1つの物体マスクを与えるビデオから物体を除去する学習。
論文 参考訳(メタデータ) (2021-08-04T08:56:28Z) - Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T03:13:05Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。