論文の概要: Generative Video Matting
- arxiv url: http://arxiv.org/abs/2508.07905v1
- Date: Mon, 11 Aug 2025 12:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.086794
- Title: Generative Video Matting
- Title(参考訳): ジェネレーティブなビデオマッチング
- Authors: Yongtao Ge, Kangyang Xie, Guangkai Xu, Mingyu Liu, Li Ke, Longtao Huang, Hui Xue, Hao Chen, Chunhua Shen,
- Abstract要約: ビデオ・マッティングは、伝統的に高品質な地上データがないために制限されてきた。
既存のビデオ・マッティング・データセットのほとんどは、人間が注釈付けした不完全なアルファとフォアグラウンドのアノテーションのみを提供する。
本稿では,事前学習したビデオ拡散モデルから,よりリッチな事前処理を効果的に活用できる新しいビデオマッチング手法を提案する。
- 参考スコア(独自算出の注目度): 57.186684844156595
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video matting has traditionally been limited by the lack of high-quality ground-truth data. Most existing video matting datasets provide only human-annotated imperfect alpha and foreground annotations, which must be composited to background images or videos during the training stage. Thus, the generalization capability of previous methods in real-world scenarios is typically poor. In this work, we propose to solve the problem from two perspectives. First, we emphasize the importance of large-scale pre-training by pursuing diverse synthetic and pseudo-labeled segmentation datasets. We also develop a scalable synthetic data generation pipeline that can render diverse human bodies and fine-grained hairs, yielding around 200 video clips with a 3-second duration for fine-tuning. Second, we introduce a novel video matting approach that can effectively leverage the rich priors from pre-trained video diffusion models. This architecture offers two key advantages. First, strong priors play a critical role in bridging the domain gap between synthetic and real-world scenes. Second, unlike most existing methods that process video matting frame-by-frame and use an independent decoder to aggregate temporal information, our model is inherently designed for video, ensuring strong temporal consistency. We provide a comprehensive quantitative evaluation across three benchmark datasets, demonstrating our approach's superior performance, and present comprehensive qualitative results in diverse real-world scenes, illustrating the strong generalization capability of our method. The code is available at https://github.com/aim-uofa/GVM.
- Abstract(参考訳): ビデオ・マッティングは、伝統的に高品質な地上データがないために制限されてきた。
ほとんどの既存のビデオマッチングデータセットは、トレーニング段階の背景画像やビデオに合成する必要がある、人間のアノテーションのないアルファとフォアグラウンドのアノテーションのみを提供する。
したがって、現実シナリオにおける従来の手法の一般化能力は、典型的には不十分である。
本研究では,2つの観点から問題を解くことを提案する。
まず,多種多様な合成および擬似ラベルセグメンテーションデータセットを探索することにより,大規模事前学習の重要性を強調した。
また、多様な人体と細かな毛髪をレンダリングできるスケーラブルな合成データ生成パイプラインを開発し、200本のビデオクリップを3秒間の微調整で作成する。
第2に,事前学習したビデオ拡散モデルから,よりリッチな事前処理を効果的に活用できる新しいビデオマッチング手法を提案する。
このアーキテクチャには2つの大きな利点がある。
第一に、強い先行性は、合成シーンと現実世界シーンの間の領域ギャップを埋める上で重要な役割を果たす。
第二に、ビデオマッチングをフレーム単位で処理し、独立したデコーダを使って時間情報を集約する既存の方法とは異なり、当社のモデルは本質的にビデオ用に設計されており、時間的一貫性の強いものである。
我々は,3つのベンチマークデータセットの総合的定量的評価を行い,提案手法の優れた性能を実証し,本手法の強力な一般化能力を示すとともに,実世界の多様なシーンにおける総合的質的結果を示す。
コードはhttps://github.com/aim-uofa/GVMで入手できる。
関連論文リスト
- Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos [15.781862060265519]
CFC-VIDS-1Mは、体系的な粗いキュレーションパイプラインによって構築された高品質のビデオデータセットである。
我々は、空間的時間的注意機構を分離したトランスフォーマーベースのアーキテクチャであるRACCOONを開発した。
論文 参考訳(メタデータ) (2025-02-28T18:56:35Z) - Pre-training for Action Recognition with Automatically Generated Fractal Datasets [23.686476742398973]
本稿では,短い合成ビデオクリップの大規模データセットを自動生成する手法を提案する。
生成されたビデオクリップは、複雑なマルチスケール構造を生成するフラクタルの自然能力に起因した顕著な多様性によって特徴づけられる。
通常のKineeticsの事前トレーニングと比較すると、報告結果が近くなり、下流のデータセットよりも優れています。
論文 参考訳(メタデータ) (2024-11-26T16:51:11Z) - Depth Any Video with Scalable Synthetic Data [98.42356740981839]
多様な仮想環境からリアルタイムのビデオ深度データをキャプチャする,スケーラブルな合成データパイプラインを開発した。
我々は、生成的ビデオ拡散モデルの強力な先駆を生かして、実世界の動画を効果的に処理する。
我々のモデルは、空間的精度と時間的一貫性の観点から、過去のすべての生成深度モデルより優れている。
論文 参考訳(メタデータ) (2024-10-14T17:59:46Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。