論文の概要: MatAnyone 2: Scaling Video Matting via a Learned Quality Evaluator
- arxiv url: http://arxiv.org/abs/2512.11782v1
- Date: Fri, 12 Dec 2025 18:51:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.875409
- Title: MatAnyone 2: Scaling Video Matting via a Learned Quality Evaluator
- Title(参考訳): MatAnyone 2: 学習した品質評価器によるビデオマッチングのスケーリング
- Authors: Peiqing Yang, Shangchen Zhou, Kai Hao, Qingyi Tao,
- Abstract要約: そこで我々は,α行列の意味的品質と境界品質を評価するための学習されたマッティング品質評価器(MQE)を紹介した。
MQEは2つの方法でビデオマッチングをスケールアップする。トレーニング中に、誤った領域を抑えるためのオンラインマッティング品質フィードバックとして、データキュレーションのためのオフライン選択モジュールとして。
私たちのMatAnyone 2は、合成ベンチマークと実世界のベンチマークの両方で最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 20.570147774716343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video matting remains limited by the scale and realism of existing datasets. While leveraging segmentation data can enhance semantic stability, the lack of effective boundary supervision often leads to segmentation-like mattes lacking fine details. To this end, we introduce a learned Matting Quality Evaluator (MQE) that assesses semantic and boundary quality of alpha mattes without ground truth. It produces a pixel-wise evaluation map that identifies reliable and erroneous regions, enabling fine-grained quality assessment. The MQE scales up video matting in two ways: (1) as an online matting-quality feedback during training to suppress erroneous regions, providing comprehensive supervision, and (2) as an offline selection module for data curation, improving annotation quality by combining the strengths of leading video and image matting models. This process allows us to build a large-scale real-world video matting dataset, VMReal, containing 28K clips and 2.4M frames. To handle large appearance variations in long videos, we introduce a reference-frame training strategy that incorporates long-range frames beyond the local window for effective training. Our MatAnyone 2 achieves state-of-the-art performance on both synthetic and real-world benchmarks, surpassing prior methods across all metrics.
- Abstract(参考訳): ビデオのマッチングは、既存のデータセットのスケールとリアリズムによって制限されている。
セグメンテーションデータを活用することでセグメンテーションの安定性が向上するが、効果的な境界監督の欠如はセグメンテーションのようなマットに詳細が欠けていることにつながる。
そこで本研究では,アルファマットのセマンティクスと境界品質を評価するための学習的マッティング品質評価器(MQE)を提案する。
信頼度と誤った領域を識別し、きめ細かい品質評価を可能にする画素ワイズ評価マップを生成する。
MQEは,(1)誤った領域を抑えるためのトレーニング中のオンラインマッティング品質フィードバックとして,(2)データキュレーションのためのオフライン選択モジュールとして,(2)先行するビデオと画像のマッチングモデルの強みを組み合わせることで,アノテーションの品質を向上させる。
このプロセスにより、28Kクリップと2.4Mフレームを含む大規模な実世界のビデオマッチングデータセット、VMRealを構築することができます。
長大な映像の外観変化に対処するため,ローカルウィンドウの向こう側に長大なフレームを組み込んだ参照フレームトレーニング戦略を導入し,効果的なトレーニングを行う。
私たちのMatAnyone 2は、合成ベンチマークと実世界のベンチマークの両方で最先端のパフォーマンスを実現しています。
関連論文リスト
- Generative Video Matting [57.186684844156595]
ビデオ・マッティングは、伝統的に高品質な地上データがないために制限されてきた。
既存のビデオ・マッティング・データセットのほとんどは、人間が注釈付けした不完全なアルファとフォアグラウンドのアノテーションのみを提供する。
本稿では,事前学習したビデオ拡散モデルから,よりリッチな事前処理を効果的に活用できる新しいビデオマッチング手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T12:18:55Z) - Bridging Video Quality Scoring and Justification via Large Multimodal Models [14.166920184033463]
古典的映像品質評価法(VQA)は、映像の視覚的忠実さと明瞭さを判断する数値スコアを生成する。
しかし、スコアはビデオの複雑な品質の次元を表現できず、適用性を制限する。
言語出力から恩恵を受け、ビデオ大マルチモーダルモデル(LMM)を命令チューニングによりVQAに適応させることは、この問題に対処する可能性がある。
論文 参考訳(メタデータ) (2025-06-26T05:02:25Z) - Towards Generalized Video Quality Assessment: A Weak-to-Strong Learning Paradigm [76.63001244080313]
映像品質評価(VQA)は、人間の視覚的知覚に合わせて映像の知覚的品質を予測することを目的としている。
支配的なVQAパラダイムは、人間のラベル付きデータセットによる教師付きトレーニングに依存している。
我々は、大規模な人ラベルデータセットに頼らずにVQAを進めるための新しいパラダイムとして、弱い対強学習(W2S)を探求する。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - MatAnyone: Stable Video Matting with Consistent Memory Propagation [55.93983057352684]
MatAnyoneは、ターゲットに指定されたビデオマッティングに適した堅牢なフレームワークである。
領域適応型メモリ融合による一貫したメモリ伝搬モジュールを提案する。
堅牢なトレーニングのために、ビデオマッチングのための、より大きく、高品質で多様なデータセットを提示します。
論文 参考訳(メタデータ) (2025-01-24T17:56:24Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z) - The DEVIL is in the Details: A Diagnostic Evaluation Benchmark for Video
Inpainting [43.90848669491335]
2つのコントリビューションからなるDEVIL(Video Inpainting on Landscapes)ベンチマークの診断評価を提案する。
私たちの挑戦的なベンチマークは、ビデオインペインティングメソッドをより洞察に富んだ分析を可能にし、この分野の診断ツールとして役立ちます。
論文 参考訳(メタデータ) (2021-05-11T20:13:53Z) - Deep Video Matting via Spatio-Temporal Alignment and Aggregation [63.6870051909004]
新たな集計機能モジュール(STFAM)を用いた深層学習型ビデオマッチングフレームワークを提案する。
フレーム毎のトリマップアノテーションを排除するため、軽量なインタラクティブなトリマップ伝搬ネットワークも導入されている。
私達のフレームワークは従来のビデオ マットおよび深いイメージのマットの方法よりかなり優秀です。
論文 参考訳(メタデータ) (2021-04-22T17:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。