論文の概要: Video Instance Matting
- arxiv url: http://arxiv.org/abs/2311.04212v2
- Date: Wed, 8 Nov 2023 05:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 12:50:21.568656
- Title: Video Instance Matting
- Title(参考訳): ビデオインスタンスのマッティング
- Authors: Jiachen Li, Roberto Henschel, Vidit Goel, Marianna Ohanyan, Shant
Navasardyan, Humphrey Shi
- Abstract要約: 本稿では,ビデオシーケンスの各フレームにおける各インスタンスのα行列を推定するビデオインスタンスマッチングを提案する。
マスクシーケンスガイド付きビデオインスタンス・マッティングニューラルネットワークであるMSG-VIMを,VIMの新たなベースラインモデルとして提案する。
提案モデルであるMSG-VIMは、VIM50ベンチマークに強いベースラインを設定し、既存の手法よりも大きなマージンで性能を向上する。
- 参考スコア(独自算出の注目度): 32.606887050549425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional video matting outputs one alpha matte for all instances
appearing in a video frame so that individual instances are not distinguished.
While video instance segmentation provides time-consistent instance masks,
results are unsatisfactory for matting applications, especially due to applied
binarization. To remedy this deficiency, we propose Video Instance
Matting~(VIM), that is, estimating alpha mattes of each instance at each frame
of a video sequence. To tackle this challenging problem, we present MSG-VIM, a
Mask Sequence Guided Video Instance Matting neural network, as a novel baseline
model for VIM. MSG-VIM leverages a mixture of mask augmentations to make
predictions robust to inaccurate and inconsistent mask guidance. It
incorporates temporal mask and temporal feature guidance to improve the
temporal consistency of alpha matte predictions. Furthermore, we build a new
benchmark for VIM, called VIM50, which comprises 50 video clips with multiple
human instances as foreground objects. To evaluate performances on the VIM
task, we introduce a suitable metric called Video Instance-aware Matting
Quality~(VIMQ). Our proposed model MSG-VIM sets a strong baseline on the VIM50
benchmark and outperforms existing methods by a large margin. The project is
open-sourced at https://github.com/SHI-Labs/VIM.
- Abstract(参考訳): 従来のビデオマッチングは、ビデオフレームに現れるすべてのインスタンスに対して1つのアルファマットを出力し、個々のインスタンスが区別されないようにする。
ビデオインスタンスのセグメンテーションは時間一貫性のあるインスタンスマスクを提供するが、特に適用されたバイナリ化のため、マッティングアプリケーションでは結果が不十分である。
この不足を解消するために,ビデオシーケンスの各フレームにおける各インスタンスのアルファマットを推定するビデオインスタンスmatting~(vim)を提案する。
この課題に対処するために,マスクシーケンスガイドビデオインスタンスマッチングニューラルネットワークであるMSG-VIMを,VIMの新たなベースラインモデルとして提案する。
MSG-VIMは、マスク強化の混合を利用して、不正確なマスクガイダンスと一貫性のないマスクガイダンスを堅牢に予測する。
時間的マスクと時間的特徴ガイダンスを取り入れ、アルファマット予測の時間的一貫性を改善する。
さらに,複数の人間インスタンスを前景オブジェクトとして50本のビデオクリップを含むvim50と呼ばれる新しいベンチマークを構築した。
VIMタスクのパフォーマンスを評価するために、ビデオインスタンス対応のマッティング品質~(VIMQ)という適切な指標を導入する。
提案モデルであるMSG-VIMは、VIM50ベンチマークに強いベースラインを設定し、既存の手法よりも大きなマージンで性能を向上する。
プロジェクトはhttps://github.com/SHI-Labs/VIMで公開されている。
関連論文リスト
- DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking
Tasks [76.24996889649744]
Masked Autoencoder (MAE) Pretraining on video for matching-based downstream task, including visual object tracking (VOT) and video object segmentation (VOS)
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
本モデルは,9つの競争力のあるビデオ追跡とセグメンテーションデータセットのうち8つに,最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - Mask-Free Video Instance Segmentation [102.50936366583106]
ビデオマスクは面倒で高価なアノテーションで、既存のVISデータセットのスケールと多様性を制限している。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々のTK-Lossは、効率的なパッチマッチングステップを経て、フレーム間の一対多のマッチを見つけ、続いてK-アネレスの隣り合う選択を行う。
論文 参考訳(メタデータ) (2023-03-28T11:48:07Z) - One-Shot Video Inpainting [5.7120338754738835]
ワンショット・ビデオ・インパインティング(OSVI)のための統一パイプラインを提案する。
マスク予測と映像補完をエンドツーエンドで共同学習することにより,タスク全体に対して最適な結果が得られる。
提案手法は,予測マスクをネットワークの内部ガイダンスとして利用できるため,信頼性が高い。
論文 参考訳(メタデータ) (2023-02-28T07:30:36Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Self-Supervised Video Object Segmentation by Motion-Aware Mask
Propagation [52.8407961172098]
半教師付きビデオオブジェクトセグメンテーションのための自己教師付きモーションアウェアマッチング法を作成した。
従来の自己教師型手法と比較して,MAMPはより高度な一般化能力を持つ最先端性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-07-27T03:07:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。