論文の概要: Progressive Temporal Feature Alignment Network for Video Inpainting
- arxiv url: http://arxiv.org/abs/2104.03507v1
- Date: Thu, 8 Apr 2021 04:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:08:38.046417
- Title: Progressive Temporal Feature Alignment Network for Video Inpainting
- Title(参考訳): 映像インペインティングのための進行時間特徴アライメントネットワーク
- Authors: Xueyan Zou, Linjie Yang, Ding Liu, Yong Jae Lee
- Abstract要約: ビデオ畳み込みは、時間内「破損した地域」に可能な内容で埋めることを目指しています。
現在の方法は、注意、フローベースのワープ、あるいは3次元時間的畳み込みによってこの目標を達成する。
現在のフレームから抽出された特徴を、隣接するフレームから歪んだ特徴で段階的に強化する「プログレッシブ・テンポラリティ・アライメント・ネットワーク」を提案します。
- 参考スコア(独自算出の注目度): 51.26380898255555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video inpainting aims to fill spatio-temporal "corrupted" regions with
plausible content. To achieve this goal, it is necessary to find
correspondences from neighbouring frames to faithfully hallucinate the unknown
content. Current methods achieve this goal through attention, flow-based
warping, or 3D temporal convolution. However, flow-based warping can create
artifacts when optical flow is not accurate, while temporal convolution may
suffer from spatial misalignment. We propose 'Progressive Temporal Feature
Alignment Network', which progressively enriches features extracted from the
current frame with the feature warped from neighbouring frames using optical
flow. Our approach corrects the spatial misalignment in the temporal feature
propagation stage, greatly improving visual quality and temporal consistency of
the inpainted videos. Using the proposed architecture, we achieve
state-of-the-art performance on the DAVIS and FVI datasets compared to existing
deep learning approaches. Code is available at
https://github.com/MaureenZOU/TSAM.
- Abstract(参考訳): ビデオインパインティングは、時空間の「崩壊した」領域を可算な内容で埋めることを目的としている。
この目的を達成するためには、近隣のフレームからの対応を見つけ、未知のコンテンツを忠実に表現する必要がある。
現在の方法は、注意、フローベースのワープ、あるいは3次元時間的畳み込みによってこの目標を達成する。
しかし、流れに基づくワーピングは、光流が正確でない場合にアーティファクトを生成できるが、時間的畳み込みは空間的不均衡に苦しむことがある。
そこで本研究では,現在フレームから抽出した特徴を光流を用いて隣接フレームから逸脱させた特徴量で徐々に強化する「進行時間特徴アライメントネットワーク」を提案する。
提案手法は時間的特徴伝播段階における空間的ずれを補正し,映像の視覚的品質と時間的一貫性を大幅に改善する。
提案アーキテクチャを用いて,既存のディープラーニング手法と比較して,DAVISおよびFVIデータセットの最先端性能を実現する。
コードはhttps://github.com/MaureenZOU/TSAMで入手できる。
関連論文リスト
- STLight: a Fully Convolutional Approach for Efficient Predictive Learning by Spatio-Temporal joint Processing [6.872340834265972]
チャネルワイドおよび深度ワイドの畳み込みを学習可能な層としてのみ依存する,S時間学習のための新しい方法STLightを提案する。
STLightは、空間次元と時間次元を並べ替えることで、従来の畳み込みアプローチの限界を克服する。
本アーキテクチャは,データセットや設定のSTLベンチマーク上での最先端性能を実現するとともに,パラメータや計算FLOPの計算効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-15T13:53:19Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - LatentWarp: Consistent Diffusion Latents for Zero-Shot Video-to-Video
Translation [21.815083817914843]
我々はtextitLatentWarp というゼロショット動画翻訳フレームワークを提案する。
我々のアプローチは単純で、クエリトークンの時間的一貫性を制約するために、潜伏した空間にワープ操作を組み込む。
textitLatentWarpの時間的コヒーレンスによるビデオ間翻訳における優位性を示す実験結果を得た。
論文 参考訳(メタデータ) (2023-11-01T08:02:57Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z) - Flow-edge Guided Video Completion [66.49077223104533]
従来のフローコンプリート法は、しばしば運動境界のシャープさを維持することができない。
提案手法は,まず動きエッジを抽出し,その後,鋭いエッジで平滑な流れ完了を導出する。
論文 参考訳(メタデータ) (2020-09-03T17:59:42Z) - Exploring Rich and Efficient Spatial Temporal Interactions for Real Time
Video Salient Object Detection [87.32774157186412]
メインストリーム方式は、主に2つの独立した場所、すなわち空間的分岐と時間的分岐からビデオ・サリエンシを定式化する。
本稿では,このような改善を実現するための時間的ネットワークを提案する。
提案手法は実装が簡単で,50FPSで高精細度をリアルタイムに検出できる。
論文 参考訳(メタデータ) (2020-08-07T03:24:04Z) - Semantic Flow for Fast and Accurate Scene Parsing [28.444273169423074]
フローアライメントモジュール(FAM)は、隣接するレベルの特徴マップ間のセマンティックフローを学習する。
Cityscapes、PASCAL Context、ADE20K、CamVidなど、いくつかの挑戦的なデータセットで実験が行われている。
私たちのネットワークは、26FPSのフレームレートで80.4%のmIoUをCityscapesで達成した初めてのネットワークです。
論文 参考訳(メタデータ) (2020-02-24T08:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。