論文の概要: Temporally Coherent Person Matting Trained on Fake-Motion Dataset
- arxiv url: http://arxiv.org/abs/2109.04843v1
- Date: Fri, 10 Sep 2021 12:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:27:38.638648
- Title: Temporally Coherent Person Matting Trained on Fake-Motion Dataset
- Title(参考訳): Fake-Motion データセットで学習した時間的コヒーレントな人物
- Authors: Ivan Molodetskikh, Mikhail Erofeev, Andrey Moskalenko, Dmitry Vatolin
- Abstract要約: 本稿では,トリマップのような付加的なユーザ入力を必要としない人物を描写したビデオのマッチングを行う新しい手法を提案する。
本アーキテクチャは,画像分割アルゴリズム出力の運動推定に基づく平滑化を用いて,結果のアルファ行列の時間的安定性を実現する。
また,地味なアルファ・マットとバックグラウンド・ビデオで撮影されたビデオ・マッティング・ネットワークのトレーニング・クリップを生成するフェイク・モーション・アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel neural-network-based method to perform matting of videos
depicting people that does not require additional user input such as trimaps.
Our architecture achieves temporal stability of the resulting alpha mattes by
using motion-estimation-based smoothing of image-segmentation algorithm
outputs, combined with convolutional-LSTM modules on U-Net skip connections.
We also propose a fake-motion algorithm that generates training clips for the
video-matting network given photos with ground-truth alpha mattes and
background videos. We apply random motion to photos and their mattes to
simulate movement one would find in real videos and composite the result with
the background clips. It lets us train a deep neural network operating on
videos in an absence of a large annotated video dataset and provides
ground-truth training-clip foreground optical flow for use in loss functions.
- Abstract(参考訳): 本稿では,トリマップなどの付加的なユーザ入力を必要としない映像をマッティングするニューラルネットワークに基づく新しい手法を提案する。
U-Netスキップ接続上の畳み込みLSTMモジュールと組み合わせ, 画像分割アルゴリズム出力の運動推定に基づく平滑化を用いて, 得られたアルファ行列の時間的安定性を実現する。
また,アルファマットと背景ビデオを用いた画像の訓練用クリップを生成するフェイクモーションアルゴリズムを提案する。
写真とそのマットにランダムな動きを適用し、実際のビデオで見られる動きをシミュレートし、その結果を背景クリップと合成する。
大規模な注釈付きビデオデータセットがなければ、ビデオで動作するディープニューラルネットワークをトレーニングでき、損失関数に使用するために、地対地トレーニング-クリップフォアグラウンド光フローを提供します。
関連論文リスト
- Data Collection-free Masked Video Modeling [6.641717260925999]
静的な画像を活用してコストを低減したビデオのための効果的な自己教師型学習フレームワークを提案する。
これらの擬似モーションビデオは、マスク付きビデオモデリングに活用される。
提案手法は合成画像にも適用可能であり,ビデオ学習をデータ収集から完全に解放することは,実際のデータに対する他の懸念も伴う。
論文 参考訳(メタデータ) (2024-09-10T17:34:07Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Training-Free Neural Matte Extraction for Visual Effects [4.91173926165739]
アルファマットはビデオ会議や映画、テレビ、ソーシャルメディアで広く使われている。
マット抽出問題に対する深層学習のアプローチは、一貫した主題のため、ビデオ会議に適している。
本稿では,視覚効果生成の仮定を特に対象とする,トレーニング不要な高品質なニューラルネットワーク抽出手法を提案する。
論文 参考訳(メタデータ) (2023-06-29T22:08:12Z) - Adaptive Human Matting for Dynamic Videos [62.026375402656754]
Adaptive Matting for Dynamic VideosはAdaMと呼ばれ、背景と背景を同時に区別するフレームワークである。
この目的を達成するために、2つの相互接続ネットワーク設計が採用されている。
提案手法が最近導入したデータセットをベンチマークし,検討した結果,行列が新たなクラス内でのベスト・イン・クラス・ジェネリザビリティを実現することがわかった。
論文 参考訳(メタデータ) (2023-04-12T17:55:59Z) - DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking
Tasks [76.24996889649744]
Masked Autoencoder (MAE) Pretraining on video for matching-based downstream task, including visual object tracking (VOT) and video object segmentation (VOS)
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
本モデルは,9つの競争力のあるビデオ追跡とセグメンテーションデータセットのうち8つに,最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Unfolding a blurred image [36.519356428362286]
我々は、教師なしの方法でシャープビデオから動きの表現を学習する。
次に、ビデオ再構成の代用タスクを実行する畳み込みリカレントビデオオートエンコーダネットワークを訓練する。
ぼやけた画像のためのモーションエンコーダのガイドトレーニングに使用される。
このネットワークは、ぼやけた画像から埋め込み動作情報を抽出し、トレーニングされたリカレントビデオデコーダとともにシャープなビデオを生成する。
論文 参考訳(メタデータ) (2022-01-28T09:39:55Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。