論文の概要: Attention-guided Temporal Coherent Video Object Matting
- arxiv url: http://arxiv.org/abs/2105.11427v1
- Date: Mon, 24 May 2021 17:34:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 15:08:30.131079
- Title: Attention-guided Temporal Coherent Video Object Matting
- Title(参考訳): 注意誘導型テンポラルコヒーレントビデオオブジェクトマッチング
- Authors: Yunke Zhang, Chi Wang, Miaomiao Cui, Peiran Ren, Xuansong Xie,
Xian-sheng Hua, Hujun Bao, Qixing Huang, Weiwei Xu
- Abstract要約: 本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
- 参考スコア(独自算出の注目度): 78.82835351423383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel deep learning-based video object matting method
that can achieve temporally coherent matting results. Its key component is an
attention-based temporal aggregation module that maximizes image matting
networks' strength for video matting networks. This module computes temporal
correlations for pixels adjacent to each other along the time axis in feature
space to be robust against motion noises. We also design a novel loss term to
train the attention weights, which drastically boosts the video matting
performance. Besides, we show how to effectively solve the trimap generation
problem by fine-tuning a state-of-the-art video object segmentation network
with a sparse set of user-annotated keyframes. To facilitate video matting and
trimap generation networks' training, we construct a large-scale video matting
dataset with 80 training and 28 validation foreground video clips with
ground-truth alpha mattes. Experimental results show that our method can
generate high-quality alpha mattes for various videos featuring appearance
change, occlusion, and fast motion. Our code and dataset can be found at
https://github.com/yunkezhang/TCVOM
- Abstract(参考訳): 本稿では,時間的コヒーレントなマッティング結果を実現するための,新しい深層学習に基づくビデオオブジェクトマッティング手法を提案する。
その鍵となるコンポーネントは注意に基づくテンポラリアグリゲーションモジュールであり、ビデオマッティングネットワークにおけるイメージマッティングネットワークの強みを最大化する。
このモジュールは、特徴空間における時間軸に沿って隣接する画素の時間相関を計算し、動き雑音に対して堅牢である。
また,注目度をトレーニングする新たな損失項を設計し,映像のマッチング性能を大幅に向上させる。
さらに,最先端のビデオオブジェクトセグメンテーションネットワークをユーザアノテーションの少ないキーフレームで微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
ビデオマッティングとtrimap生成ネットワークのトレーニングを容易にするために,80のトレーニングと28の検証用前景ビデオクリップを備えた大規模ビデオマッティングデータセットを構築した。
実験結果から, 外観変化, 閉塞, 高速動作を特徴とする, 高品質なアルファマットを製作できることが示唆された。
私たちのコードとデータセットはhttps://github.com/yunkezhang/TCVOMで確認できます。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Trusted Video Inpainting Localization via Deep Attentive Noise Learning [2.1210527985139227]
本稿では,堅牢性と一般化性に優れたTruVIL(Trusted Video Inpainting Localization Network)を提案する。
塗装された痕跡を捉えるために,複数段階の深い注意雑音学習を設計する。
十分なトレーニングサンプルを作成するために,2500本のビデオからなるフレームレベルのビデオオブジェクトセグメンテーションデータセットを構築した。
論文 参考訳(メタデータ) (2024-06-19T14:08:58Z) - Adaptive Human Matting for Dynamic Videos [62.026375402656754]
Adaptive Matting for Dynamic VideosはAdaMと呼ばれ、背景と背景を同時に区別するフレームワークである。
この目的を達成するために、2つの相互接続ネットワーク設計が採用されている。
提案手法が最近導入したデータセットをベンチマークし,検討した結果,行列が新たなクラス内でのベスト・イン・クラス・ジェネリザビリティを実現することがわかった。
論文 参考訳(メタデータ) (2023-04-12T17:55:59Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Temporally Coherent Person Matting Trained on Fake-Motion Dataset [0.0]
本稿では,トリマップのような付加的なユーザ入力を必要としない人物を描写したビデオのマッチングを行う新しい手法を提案する。
本アーキテクチャは,画像分割アルゴリズム出力の運動推定に基づく平滑化を用いて,結果のアルファ行列の時間的安定性を実現する。
また,地味なアルファ・マットとバックグラウンド・ビデオで撮影されたビデオ・マッティング・ネットワークのトレーニング・クリップを生成するフェイク・モーション・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-10T12:53:11Z) - Deep Video Matting via Spatio-Temporal Alignment and Aggregation [63.6870051909004]
新たな集計機能モジュール(STFAM)を用いた深層学習型ビデオマッチングフレームワークを提案する。
フレーム毎のトリマップアノテーションを排除するため、軽量なインタラクティブなトリマップ伝搬ネットワークも導入されている。
私達のフレームワークは従来のビデオ マットおよび深いイメージのマットの方法よりかなり優秀です。
論文 参考訳(メタデータ) (2021-04-22T17:42:08Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。