論文の概要: MODNet: Real-Time Trimap-Free Portrait Matting via Objective
Decomposition
- arxiv url: http://arxiv.org/abs/2011.11961v4
- Date: Fri, 18 Mar 2022 04:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 13:29:29.531756
- Title: MODNet: Real-Time Trimap-Free Portrait Matting via Objective
Decomposition
- Title(参考訳): modnet:objective decompositionによるリアルタイムtrimapフリーなポートレートマットリング
- Authors: Zhanghan Ke, Jiayu Sun, Kaican Li, Qiong Yan, Rynson W.H. Lau
- Abstract要約: 既存のポートレート・マッティング法では、計算コストのかかる複数のステージを取得または含むのに費用がかかる補助的な入力が必要となる。
ポートレート・マッティングを1つの入力画像でリアルタイムに行うための軽量なマッティング客観分解ネットワーク(MODNet)を提案する。
- 参考スコア(独自算出の注目度): 39.60219801564855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing portrait matting methods either require auxiliary inputs that are
costly to obtain or involve multiple stages that are computationally expensive,
making them less suitable for real-time applications. In this work, we present
a light-weight matting objective decomposition network (MODNet) for portrait
matting in real-time with a single input image. The key idea behind our
efficient design is by optimizing a series of sub-objectives simultaneously via
explicit constraints. In addition, MODNet includes two novel techniques for
improving model efficiency and robustness. First, an Efficient Atrous Spatial
Pyramid Pooling (e-ASPP) module is introduced to fuse multi-scale features for
semantic estimation. Second, a self-supervised sub-objectives consistency (SOC)
strategy is proposed to adapt MODNet to real-world data to address the domain
shift problem common to trimap-free methods. MODNet is easy to be trained in an
end-to-end manner. It is much faster than contemporaneous methods and runs at
67 frames per second on a 1080Ti GPU. Experiments show that MODNet outperforms
prior trimap-free methods by a large margin on both Adobe Matting Dataset and a
carefully designed photographic portrait matting (PPM-100) benchmark proposed
by us. Further, MODNet achieves remarkable results on daily photos and videos.
Our code and models are available at https://github.com/ZHKKKe/MODNet, and the
PPM-100 benchmark is released at https://github.com/ZHKKKe/PPM.
- Abstract(参考訳): 既存のポートレートマッチング手法では、計算コストのかかる複数のステージを取得するのに費用がかかる補助的な入力が必要であり、リアルタイムアプリケーションには適さない。
本研究では,1つの入力画像でリアルタイムにポートレート・マッティングを行うための軽量なマッティング対象分解ネットワーク(MODNet)を提案する。
効率的な設計の背後にある重要なアイデアは、明示的な制約によって一連のサブオブジェクトを同時に最適化することだ。
さらに、MODNetはモデル効率と堅牢性を改善する2つの新しい技術を含んでいる。
まず,高効率な空間ピラミッドプール (e-ASPP) モジュールを導入し,意味的推定のためのマルチスケール機能を融合させる。
次に,MODNetを実世界のデータに適用し,トリマップフリーな手法に共通する領域シフト問題に対処するために,自己教師付きサブオブジェクト一貫性(SOC)戦略を提案する。
MODNetはエンドツーエンドで簡単にトレーニングできる。
同時期のメソッドよりもはるかに高速で、1080Ti GPU上で毎秒67フレームで動作する。
実験によると、MODNetはAdobe Matting Datasetと慎重に設計されたPPM-100ベンチマークの両方で、事前のトリマップフリーメソッドよりも優れています。
さらに、MODNetは毎日の写真やビデオに顕著な結果をもたらす。
私たちのコードとモデルはhttps://github.com/ZHKKe/MODNetで、PPM-100ベンチマークはhttps://github.com/ZHKKe/PPMでリリースされています。
関連論文リスト
- Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - F$^3$Loc: Fusion and Filtering for Floorplan Localization [63.28504055661646]
本研究では,フロアプラン内での自己ローカライズのための効率的なデータ駆動型ソリューションを提案する。
本手法では,地図や位置情報ごとのリトレーニングや,関心領域の画像の大規模なデータベースの要求は不要である。
論文 参考訳(メタデータ) (2024-03-05T23:32:26Z) - RTMO: Towards High-Performance One-Stage Real-Time Multi-Person Pose Estimation [46.659592045271125]
RTMOは座標分類をシームレスに統合する一段階のポーズ推定フレームワークである。
高速を維持しながらトップダウン手法に匹敵する精度を達成する。
私たちの最大のモデルであるRTMO-lは、COCO val 2017で74.8%AP、1つのV100 GPUで141FPSを実現しています。
論文 参考訳(メタデータ) (2023-12-12T18:55:29Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D
Object Detection [20.161887223481994]
マルチビュー3Dオブジェクト検出のための長周期モデリングフレームワークStreamPETRを提案する。
StreamPETRは、単一フレームのベースラインと比較して、無視可能なコストでのみ、大幅なパフォーマンス向上を実現している。
軽量版は45.0%のmAPと31.7のFPSを実現し、2.3%のmAPと1.8倍の高速FPSを達成している。
論文 参考訳(メタデータ) (2023-03-21T15:19:20Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - Highly Efficient Natural Image Matting [15.977598189574659]
軽量モデルを用いたトリマップフリーな自然画像マッチング手法を提案する。
非常に軽量なモデルを構築し、人気のある自然画像ベンチマーク上で1% (344k) の大規模モデルで同等の性能を実現する。
論文 参考訳(メタデータ) (2021-10-25T09:23:46Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - Online Multi-Object Tracking and Segmentation with GMPHD Filter and
Mask-based Affinity Fusion [79.87371506464454]
本稿では,インスタンス分割結果を入力として利用するMOTS法を提案する。
提案手法は,ガウス混合確率仮説密度 (GMPHD) フィルタ,階層型データアソシエーション (HDA) モデル,マスクベース親和性融合 (MAF) モデルに基づく。
2つの人気のあるMOTSデータセットの実験では、主要なモジュールがいくつかの改善点を示している。
論文 参考訳(メタデータ) (2020-08-31T21:06:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。