論文の概要: VideoMaMa: Mask-Guided Video Matting via Generative Prior
- arxiv url: http://arxiv.org/abs/2601.14255v1
- Date: Tue, 20 Jan 2026 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.465671
- Title: VideoMaMa: Mask-Guided Video Matting via Generative Prior
- Title(参考訳): VideoMaMaMa: マスクでガイドされたビデオ・マッティングをジェネレーティブ・プレジデントで作成
- Authors: Sangbeom Lim, Seoung Wug Oh, Jiahui Huang, Heeji Yoon, Seungryong Kim, Joon-Young Lee,
- Abstract要約: ビデオマッチングモデルを実世界のビデオに一般化することは、ラベル付きデータの不足のため、依然として大きな課題である。
粗いセグメンテーションマスクを画素精度のアルファマットに変換するビデオマスク・トゥ・マテモデル(VideoMaMa)を提案する。
大規模ビデオマッティングのためのスケーラブルな擬似ラベルパイプラインを構築し、ビデオデータセットのMatting Anythingを構築する。
- 参考スコア(独自算出の注目度): 73.03369602195563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalizing video matting models to real-world videos remains a significant challenge due to the scarcity of labeled data. To address this, we present Video Mask-to-Matte Model (VideoMaMa) that converts coarse segmentation masks into pixel accurate alpha mattes, by leveraging pretrained video diffusion models. VideoMaMa demonstrates strong zero-shot generalization to real-world footage, even though it is trained solely on synthetic data. Building on this capability, we develop a scalable pseudo-labeling pipeline for large-scale video matting and construct the Matting Anything in Video (MA-V) dataset, which offers high-quality matting annotations for more than 50K real-world videos spanning diverse scenes and motions. To validate the effectiveness of this dataset, we fine-tune the SAM2 model on MA-V to obtain SAM2-Matte, which outperforms the same model trained on existing matting datasets in terms of robustness on in-the-wild videos. These findings emphasize the importance of large-scale pseudo-labeled video matting and showcase how generative priors and accessible segmentation cues can drive scalable progress in video matting research.
- Abstract(参考訳): ビデオマッチングモデルを実世界のビデオに一般化することは、ラベル付きデータの不足のため、依然として大きな課題である。
そこで我々は,粗いセグメンテーションマスクを画素精度のアルファマットに変換するビデオマスク・トゥ・マテモデル(VideoMaMa)を提案する。
VideoMaMaは、合成データだけで訓練されているにもかかわらず、現実世界の映像に対して強力なゼロショットの一般化を実証している。
この能力に基づいて、大規模なビデオのマッティングのためのスケーラブルな擬似ラベルパイプラインを開発し、様々なシーンや動きにまたがる50万以上の実世界のビデオに対して高品質なマッティングアノテーションを提供する、Matting Anything in Video (MA-V)データセットを構築した。
このデータセットの有効性を検証するため,MA-V上でSAM2モデルを微調整してSAM2-Matteを得る。
これらの知見は、大規模な擬似ラベル付きビデオ・マッティングの重要性を強調し、ビデオ・マッティング研究において、生成的先行とアクセス可能なセグメンテーション・キューがいかにスケーラブルな進歩をもたらすかを示す。
関連論文リスト
- IMAGEdit: Let Any Subject Transform [61.666509860041124]
imageditは、ビデオの被写体編集のためのトレーニング不要のフレームワークである。
非標的領域を維持しながら、複数の指定対象の外観を操作する。
マスク駆動型ビデオ生成モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-01T17:59:56Z) - Generative Video Matting [57.186684844156595]
ビデオ・マッティングは、伝統的に高品質な地上データがないために制限されてきた。
既存のビデオ・マッティング・データセットのほとんどは、人間が注釈付けした不完全なアルファとフォアグラウンドのアノテーションのみを提供する。
本稿では,事前学習したビデオ拡散モデルから,よりリッチな事前処理を効果的に活用できる新しいビデオマッチング手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T12:18:55Z) - VRMDiff: Text-Guided Video Referring Matting Generation of Diffusion [9.465414294387507]
本稿では,参照キャプションを入力して,特定のインスタンスのアルファマットを取得する,新しいタスクであるビデオ参照マットを提案する。
本稿では,ビデオ拡散モデルに先行するテキスト間アライメントを利用して,マットの密接な予測タスクを映像生成として扱う。
大規模なビデオ参照マッチングデータセットを1万本導入した。
論文 参考訳(メタデータ) (2025-03-11T06:12:35Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。