論文の概要: Spatial-Temporal Residual Aggregation for High Resolution Video
Inpainting
- arxiv url: http://arxiv.org/abs/2111.03574v1
- Date: Fri, 5 Nov 2021 15:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 15:51:32.382368
- Title: Spatial-Temporal Residual Aggregation for High Resolution Video
Inpainting
- Title(参考訳): 高分解能ビデオ塗装のための空間時間残差凝集
- Authors: Vishnu Sanjay Ramiya Srinivasan, Rui Ma, Qiang Tang, Zili Yi, Zhan Xu
- Abstract要約: 最近の学習ベースの塗装アルゴリズムは、望ましくない物体をビデオから取り除いた後に、欠落した領域を完了させることで、説得力のある結果を得た。
STRA-Netは,高分解能ビデオインペイントのための新しい空間時間残差集約フレームワークである。
定量的および定性的な評価は、高解像度ビデオの現像方法よりも、時間的コヒーレントで視覚的に魅力的な結果が得られることを示している。
- 参考スコア(独自算出の注目度): 14.035620730770528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent learning-based inpainting algorithms have achieved compelling results
for completing missing regions after removing undesired objects in videos. To
maintain the temporal consistency among the frames, 3D spatial and temporal
operations are often heavily used in the deep networks. However, these methods
usually suffer from memory constraints and can only handle low resolution
videos. We propose STRA-Net, a novel spatial-temporal residual aggregation
framework for high resolution video inpainting. The key idea is to first learn
and apply a spatial and temporal inpainting network on the downsampled low
resolution videos. Then, we refine the low resolution results by aggregating
the learned spatial and temporal image residuals (details) to the upsampled
inpainted frames. Both the quantitative and qualitative evaluations show that
we can produce more temporal-coherent and visually appealing results than the
state-of-the-art methods on inpainting high resolution videos.
- Abstract(参考訳): 最近の学習ベースの塗装アルゴリズムは、望ましくない物体をビデオから取り除いた後に、欠落した領域を完了させる魅力的な結果を得た。
フレーム間の時間的一貫性を維持するため、3次元空間的および時間的操作はディープネットワークで頻繁に使用される。
しかし、これらの手法は通常メモリの制約に苦しめられ、低解像度ビデオしか扱えない。
STRA-Netは,高分解能ビデオインペイントのための空間時間残差集約フレームワークである。
鍵となるアイデアは、まず低解像度の低解像度ビデオに空間的および時間的塗装ネットワークを学習し、適用することである。
次に,学習した空間的および時間的画像残差(詳細)をアップサンプリングしたフレームに集約することにより,低解像度の画像を洗練する。
定量的および定性的な評価は、高解像度ビデオの現像方法よりも、時間的コヒーレントで視覚的に魅力的な結果が得られることを示している。
関連論文リスト
- Towards Interpretable Video Super-Resolution via Alternating
Optimization [115.85296325037565]
低フレームのぼかしビデオから高フレームの高解像度のシャープビデオを生成することを目的とした実時間ビデオ超解法(STVSR)問題について検討する。
本稿では,モデルベースと学習ベースの両方の手法を用いて,解釈可能なSTVSRフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-21T21:34:05Z) - Feature Refinement to Improve High Resolution Image Inpainting [1.4824891788575418]
塗装ネットワークは、トレーニングセットよりも高い解像度でグローバルコヒーレントな構造を生成できないことが多い。
推論におけるマルチスケールの一貫性損失を最小限に抑えることにより,ネットワークの中間的特徴マップを最適化する。
このランタイム最適化は、塗装結果を改善し、高分解能塗装のための新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-06-27T21:59:12Z) - VideoINR: Learning Video Implicit Neural Representation for Continuous
Space-Time Super-Resolution [75.79379734567604]
ビデオインプリシットニューラル表現(Video Implicit Neural Representation, VideoINR)は任意の空間解像度とフレームレートの映像にデコード可能であることを示す。
本稿では,最新のSTVSR手法を用いて,一般的なアップサンプリングスケールにおいて,ビデオINRが競合性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-09T17:45:49Z) - Learning Spatio-Temporal Downsampling for Effective Video Upscaling [20.07194339353278]
本稿では,時空間ダウンサンプリングとアップサンプリングを学習することで,時空間エイリアス問題を解決することを目的とする。
我々のフレームワークは、任意のビデオリサンプリング、ぼやけたフレーム再構築、効率的なビデオストレージなど、様々なアプリケーションを可能にする。
論文 参考訳(メタデータ) (2022-03-15T17:59:00Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - Short-Term and Long-Term Context Aggregation Network for Video
Inpainting [126.06302824297948]
Video Inpaintingは、ビデオの欠落した領域を復元することを目的としており、ビデオ編集やオブジェクト削除など多くのアプリケーションがある。
本稿では,映像インパインティングにおいて,短期・長期のフレーム情報を効果的に活用する新しいコンテキスト集約ネットワークを提案する。
実験により,最先端の手法よりも優れた塗布結果と高速塗布速度が得られた。
論文 参考訳(メタデータ) (2020-09-12T03:50:56Z) - Neural Sparse Voxel Fields [151.20366604586403]
高速かつ高品質な自由視点レンダリングのためのニューラルシーン表現であるNeural Sparse Voxel Fields (NSVF)を紹介する。
NSVFは、各細胞の局所特性をモデル化するために、スパース・ボクセル・オクツリーで組織された、ボクセルに結合した暗黙のフィールドのセットを定義する。
提案手法は, 高い品質を達成しつつ, 推論時の最先端技術(NeRF(Mildenhall et al., 2020))よりも10倍以上高速である。
論文 参考訳(メタデータ) (2020-07-22T17:51:31Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。