論文の概要: Deep Video Matting via Spatio-Temporal Alignment and Aggregation
- arxiv url: http://arxiv.org/abs/2104.11208v1
- Date: Thu, 22 Apr 2021 17:42:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 13:50:39.985121
- Title: Deep Video Matting via Spatio-Temporal Alignment and Aggregation
- Title(参考訳): 時空間アライメントとアグリゲーションによるDeep Video Matting
- Authors: Yanan Sun, Guanzhi Wang, Qiao Gu, Chi-Keung Tang, Yu-Wing Tai
- Abstract要約: 新たな集計機能モジュール(STFAM)を用いた深層学習型ビデオマッチングフレームワークを提案する。
フレーム毎のトリマップアノテーションを排除するため、軽量なインタラクティブなトリマップ伝搬ネットワークも導入されている。
私達のフレームワークは従来のビデオ マットおよび深いイメージのマットの方法よりかなり優秀です。
- 参考スコア(独自算出の注目度): 63.6870051909004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the significant progress made by deep learning in natural image
matting, there has been so far no representative work on deep learning for
video matting due to the inherent technical challenges in reasoning temporal
domain and lack of large-scale video matting datasets. In this paper, we
propose a deep learning-based video matting framework which employs a novel and
effective spatio-temporal feature aggregation module (ST-FAM). As optical flow
estimation can be very unreliable within matting regions, ST-FAM is designed to
effectively align and aggregate information across different spatial scales and
temporal frames within the network decoder. To eliminate frame-by-frame trimap
annotations, a lightweight interactive trimap propagation network is also
introduced. The other contribution consists of a large-scale video matting
dataset with groundtruth alpha mattes for quantitative evaluation and
real-world high-resolution videos with trimaps for qualitative evaluation.
Quantitative and qualitative experimental results show that our framework
significantly outperforms conventional video matting and deep image matting
methods applied to video in presence of multi-frame temporal information.
- Abstract(参考訳): 自然な画像マッチングの深層学習による顕著な進歩にもかかわらず、時間領域の推論や大規模ビデオマッチングデータセットの欠如による技術的課題から、ビデオマッチングの深層学習に関する代表的な研究はこれまでにない。
本稿では,新しい時空間特徴集約モジュール(st-fam)を用いた深層学習型ビデオマットリングフレームワークを提案する。
光フロー推定はマットング領域では極めて信頼できないため、st-famはネットワークデコーダ内の異なる空間スケールと時間枠にまたがる情報を効果的に調整し集約するように設計されている。
フレーム毎のトリマップアノテーションを排除するため、軽量なインタラクティブなトリマップ伝搬ネットワークも導入されている。
その他のコントリビューションは、定量評価のための基底αマット付き大規模ビデオマッチングデータセットと、質的評価のためのトリマップ付き実世界の高解像度ビデオからなる。
定量的および定性的な実験結果から,本フレームワークは多フレーム時間情報の存在下で,従来のビデオマッチング法や深部画像マッチング法よりも優れていることが示された。
関連論文リスト
- Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - Adaptive Human Matting for Dynamic Videos [62.026375402656754]
Adaptive Matting for Dynamic VideosはAdaMと呼ばれ、背景と背景を同時に区別するフレームワークである。
この目的を達成するために、2つの相互接続ネットワーク設計が採用されている。
提案手法が最近導入したデータセットをベンチマークし,検討した結果,行列が新たなクラス内でのベスト・イン・クラス・ジェネリザビリティを実現することがわかった。
論文 参考訳(メタデータ) (2023-04-12T17:55:59Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Depth-Aware Multi-Grid Deep Homography Estimation with Contextual
Correlation [38.95610086309832]
ホログラフィー推定は、画像ステッチ、ビデオ安定化、カメラキャリブレーションなどのコンピュータビジョンにおいて重要なタスクである。
従来のホモグラフィー推定法は特徴点の量と分布に依存するため、テクスチャレスシーンではロバスト性が低い。
特徴写像上の長距離相関を捉えることができ、学習フレームワークに柔軟にブリッジできるコンテキスト相関層を提案する。
我々は,新しい深度認識型形状保存損失を導入することで,ネットワークに深度知覚能力を持たせる。
論文 参考訳(メタデータ) (2021-07-06T10:33:12Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。