論文の概要: MatAnyone: Stable Video Matting with Consistent Memory Propagation
- arxiv url: http://arxiv.org/abs/2501.14677v2
- Date: Tue, 25 Mar 2025 06:56:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 20:14:00.690298
- Title: MatAnyone: Stable Video Matting with Consistent Memory Propagation
- Title(参考訳): MatAnyone: 一貫性のあるメモリプロパゲーションを備えた安定したビデオマッチング
- Authors: Peiqing Yang, Shangchen Zhou, Jixin Zhao, Qingyi Tao, Chen Change Loy,
- Abstract要約: MatAnyoneは、ターゲットに指定されたビデオマッティングに適した堅牢なフレームワークである。
領域適応型メモリ融合による一貫したメモリ伝搬モジュールを提案する。
堅牢なトレーニングのために、ビデオマッチングのための、より大きく、高品質で多様なデータセットを提示します。
- 参考スコア(独自算出の注目度): 55.93983057352684
- License:
- Abstract: Auxiliary-free human video matting methods, which rely solely on input frames, often struggle with complex or ambiguous backgrounds. To address this, we propose MatAnyone, a robust framework tailored for target-assigned video matting. Specifically, building on a memory-based paradigm, we introduce a consistent memory propagation module via region-adaptive memory fusion, which adaptively integrates memory from the previous frame. This ensures semantic stability in core regions while preserving fine-grained details along object boundaries. For robust training, we present a larger, high-quality, and diverse dataset for video matting. Additionally, we incorporate a novel training strategy that efficiently leverages large-scale segmentation data, boosting matting stability. With this new network design, dataset, and training strategy, MatAnyone delivers robust and accurate video matting results in diverse real-world scenarios, outperforming existing methods.
- Abstract(参考訳): 入力フレームのみに依存する補助的自由な人間のビデオマッチング手法は、複雑な背景やあいまいな背景に悩まされることが多い。
これを解決するために,ターゲットに指定したビデオマッチングに適したロバストなフレームワークであるMatAnyoneを提案する。
具体的には、メモリベースのパラダイムに基づいて、領域適応型メモリ融合による一貫したメモリ伝搬モジュールを導入し、前のフレームからメモリを適応的に統合する。
これにより、コア領域におけるセマンティックな安定性が保証され、オブジェクト境界に沿ってきめ細かい詳細を保存できる。
堅牢なトレーニングのために、ビデオマッチングのための、より大きく、高品質で多様なデータセットを提示します。
さらに,大規模セグメンテーションデータを効果的に活用し,マッチング安定性を向上する新たなトレーニング戦略を取り入れた。
この新しいネットワーク設計、データセット、トレーニング戦略により、MatAnyoneは、さまざまな実世界のシナリオにおいて、堅牢で正確なビデオマッチング結果を提供し、既存の手法よりも優れています。
関連論文リスト
- Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。
現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。
本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文 参考訳(メタデータ) (2024-08-20T08:08:32Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Adaptive Human Matting for Dynamic Videos [62.026375402656754]
Adaptive Matting for Dynamic VideosはAdaMと呼ばれ、背景と背景を同時に区別するフレームワークである。
この目的を達成するために、2つの相互接続ネットワーク設計が採用されている。
提案手法が最近導入したデータセットをベンチマークし,検討した結果,行列が新たなクラス内でのベスト・イン・クラス・ジェネリザビリティを実現することがわかった。
論文 参考訳(メタデータ) (2023-04-12T17:55:59Z) - Multi-Scale Memory-Based Video Deblurring [34.488707652997704]
メモリバンク内のぼやけたシャープ特徴ペアを記憶するためのメモリブランチを設計する。
メモリバンクのメモリを豊かにするために、双方向の頻繁度とマルチスケール戦略も設計した。
実験により,本モデルが他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-04-06T08:48:56Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z) - Memory Enhanced Embedding Learning for Cross-Modal Video-Text Retrieval [155.32369959647437]
クロスモーダルなビデオテキスト検索は、視覚と言語分野において難しい課題である。
このタスクの既存のアプローチはすべて、ハードネガティブなランキング損失を通じてエンコーディングモデルを設計する方法に重点を置いている。
ビデオテキスト検索のための新しいメモリ強化埋め込み学習(MEEL)法を提案する。
論文 参考訳(メタデータ) (2021-03-29T15:15:09Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。