論文の概要: Adaptive Human Matting for Dynamic Videos
- arxiv url: http://arxiv.org/abs/2304.06018v1
- Date: Wed, 12 Apr 2023 17:55:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 13:55:19.858258
- Title: Adaptive Human Matting for Dynamic Videos
- Title(参考訳): ダイナミックビデオのための適応的ヒューマンマッチング
- Authors: Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan
Wang, Zicheng Liu
- Abstract要約: Adaptive Matting for Dynamic VideosはAdaMと呼ばれ、背景と背景を同時に区別するフレームワークである。
この目的を達成するために、2つの相互接続ネットワーク設計が採用されている。
提案手法が最近導入したデータセットをベンチマークし,検討した結果,行列が新たなクラス内でのベスト・イン・クラス・ジェネリザビリティを実現することがわかった。
- 参考スコア(独自算出の注目度): 62.026375402656754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The most recent efforts in video matting have focused on eliminating trimap
dependency since trimap annotations are expensive and trimap-based methods are
less adaptable for real-time applications. Despite the latest tripmap-free
methods showing promising results, their performance often degrades when
dealing with highly diverse and unstructured videos. We address this limitation
by introducing Adaptive Matting for Dynamic Videos, termed AdaM, which is a
framework designed for simultaneously differentiating foregrounds from
backgrounds and capturing alpha matte details of human subjects in the
foreground. Two interconnected network designs are employed to achieve this
goal: (1) an encoder-decoder network that produces alpha mattes and
intermediate masks which are used to guide the transformer in adaptively
decoding foregrounds and backgrounds, and (2) a transformer network in which
long- and short-term attention combine to retain spatial and temporal contexts,
facilitating the decoding of foreground details. We benchmark and study our
methods on recently introduced datasets, showing that our model notably
improves matting realism and temporal coherence in complex real-world videos
and achieves new best-in-class generalizability. Further details and examples
are available at https://github.com/microsoft/AdaM.
- Abstract(参考訳): trimapアノテーションは高価であり、trimapベースのメソッドはリアルタイムアプリケーションには適応できないため、ビデオマットリングにおける最近の取り組みは、trimap依存性の排除に焦点を当てている。
期待できる結果を示す最新のトリップマップのない手法にもかかわらず、非常に多様な非構造化ビデオを扱う場合、パフォーマンスは劣化することが多い。
我々は,前景と背景を同時に区別し,前景における人間の被写体のアルファマットの詳細を捉えるために設計されたフレームワークであるadamという動的ビデオに対して適応的マットリングを導入することで,この制限に対処する。
この目的を達成するために,(1)前景と背景を適応的に復号化する際に使用するアルファマットと中間マスクを生成するエンコーダ・デコーダネットワーク,(2)前景の詳細の復号化を容易にするために,長期的・短期的注意が組み合わさって空間的・時間的コンテキストを維持するトランスフォーマネットワーク,という2つのネットワーク設計を行った。
提案手法を最近導入したデータセットにベンチマークし,複雑な実世界のビデオにおけるマッチングリアリズムと時間的コヒーレンスを改善し,新たなクラス内一般化性を実現することを示す。
詳細とサンプルはhttps://github.com/microsoft/adam.comで確認できる。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - VidLA: Video-Language Alignment at Scale [48.665918882615195]
大規模なビデオ言語アライメントのためのアプローチであるVidLAを提案する。
提案手法は,複数の検索ベンチマークにおける最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-21T22:36:24Z) - UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z) - Deep Video Matting via Spatio-Temporal Alignment and Aggregation [63.6870051909004]
新たな集計機能モジュール(STFAM)を用いた深層学習型ビデオマッチングフレームワークを提案する。
フレーム毎のトリマップアノテーションを排除するため、軽量なインタラクティブなトリマップ伝搬ネットワークも導入されている。
私達のフレームワークは従来のビデオ マットおよび深いイメージのマットの方法よりかなり優秀です。
論文 参考訳(メタデータ) (2021-04-22T17:42:08Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks [79.01176229586855]
本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。
大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2020-11-23T15:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。