論文の概要: MODNet-V: Improving Portrait Video Matting via Background Restoration
- arxiv url: http://arxiv.org/abs/2109.11818v1
- Date: Fri, 24 Sep 2021 09:03:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:12:23.780328
- Title: MODNet-V: Improving Portrait Video Matting via Background Restoration
- Title(参考訳): MODNet-V: 背景復元による画像マッチングの改善
- Authors: Jiayu Sun, Zhanghan Ke, Lihe Zhang, Huchuan Lu, Rynson W.H. Lau
- Abstract要約: 入力ビデオから動的に背景像を復元する新しい背景復元モジュール(BRM)を提案する。
BRMと最近の画像マッチングモデルMODNetを組み合わせることで、ポートレート・ビデオ・マッティングのためのMODNet-Vを提示する。
私たちの設計では、単一のNVIDIA 3090 GPU上でMODNet-Vをエンドツーエンドでトレーニングすることが可能です。
- 参考スコア(独自算出の注目度): 110.37066277391494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address the challenging portrait video matting problem more precisely,
existing works typically apply some matting priors that require additional user
efforts to obtain, such as annotated trimaps or background images. In this
work, we observe that instead of asking the user to explicitly provide a
background image, we may recover it from the input video itself. To this end,
we first propose a novel background restoration module (BRM) to recover the
background image dynamically from the input video. BRM is extremely lightweight
and can be easily integrated into existing matting models. By combining BRM
with a recent image matting model, MODNet, we then present MODNet-V for
portrait video matting. Benefited from the strong background prior provided by
BRM, MODNet-V has only 1/3 of the parameters of MODNet but achieves comparable
or even better performances. Our design allows MODNet-V to be trained in an
end-to-end manner on a single NVIDIA 3090 GPU. Finally, we introduce a new
patch refinement module (PRM) to adapt MODNet-V for high-resolution videos
while keeping MODNet-V lightweight and fast.
- Abstract(参考訳): より正確には、既存の作品では、注釈付きトリマップや背景画像などの追加のユーザー努力を必要とする、いくつかのマッチング先を適用している。
本研究では,ユーザに対して背景画像の明示的な提供を依頼する代わりに,入力ビデオ自体からそれを復元することができることを観察する。
そこで本研究では,まず,入力映像から動的に背景画像を復元する新しい背景復元モジュール(brm)を提案する。
BRMは非常に軽量で、既存のマッティングモデルと簡単に統合できる。
BRMと最近の画像マッチングモデルMODNetを組み合わせることで、ポートレートビデオマッチングのためのMODNet-Vを提示する。
brmの持つ強い背景から、modnet-v は modnet のパラメータの1/3 しか持たないが、同等あるいはそれ以上の性能を達成している。
私たちの設計では、単一のNVIDIA 3090 GPU上でMODNet-Vをエンドツーエンドでトレーニングすることが可能です。
最後に,MODNet-Vを軽量かつ高速に保ちながら,高解像度ビデオにMODNet-Vを適用するための新しいパッチリファインメントモジュール(PRM)を提案する。
関連論文リスト
- CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities [56.5742116979914]
CustomCrafterは、追加のビデオやリカバリのための微調整なしで、モデルの動き生成と概念的な組み合わせ能力を保持する。
動作生成では,VDMが早期に映像の動きを回復する傾向が見られた。
復調の後期では、特定対象の外観詳細を修復するために、このモジュールを復元する。
論文 参考訳(メタデータ) (2024-08-23T17:26:06Z) - Moonshot: Towards Controllable Video Generation and Editing with
Multimodal Conditions [94.03133100056372]
Moonshotは、画像とテキストのマルチモーダル入力を同時に処理する新しいビデオ生成モデルである。
モデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、様々な生成アプリケーションに容易に再利用できる。
論文 参考訳(メタデータ) (2024-01-03T16:43:47Z) - DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking
Tasks [76.24996889649744]
Masked Autoencoder (MAE) Pretraining on video for matching-based downstream task, including visual object tracking (VOT) and video object segmentation (VOS)
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
本モデルは,9つの競争力のあるビデオ追跡とセグメンテーションデータセットのうち8つに,最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Leveraging MoCap Data for Human Mesh Recovery [27.76352018682937]
本研究では,3次元モーションキャプチャ(MoCap)データからのポーズが,画像ベースおよびビデオベースのヒューマンメッシュ回復手法の改善に有効かどうかを検討する。
また,MoCapデータからの合成レンダリングによる微調整画像ベースモデルの性能向上が期待できる。
ポーズパラメータを直接回帰するトランスフォーマーモジュールであるPoseBERTを導入し、マスク付きモデリングでトレーニングする。
論文 参考訳(メタデータ) (2021-10-18T12:43:00Z) - MODNet: Real-Time Trimap-Free Portrait Matting via Objective
Decomposition [39.60219801564855]
既存のポートレート・マッティング法では、計算コストのかかる複数のステージを取得または含むのに費用がかかる補助的な入力が必要となる。
ポートレート・マッティングを1つの入力画像でリアルタイムに行うための軽量なマッティング客観分解ネットワーク(MODNet)を提案する。
論文 参考訳(メタデータ) (2020-11-24T08:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。