論文の概要: Towards Label-Efficient Human Matting: A Simple Baseline for Weakly Semi-Supervised Trimap-Free Human Matting
- arxiv url: http://arxiv.org/abs/2404.00921v1
- Date: Mon, 1 Apr 2024 04:53:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 23:16:25.741337
- Title: Towards Label-Efficient Human Matting: A Simple Baseline for Weakly Semi-Supervised Trimap-Free Human Matting
- Title(参考訳): ラベル効率のよいヒューマン・マッティングに向けて:弱々しい半教師付きトライアングル・フリー・ヒューマン・マッティングのためのシンプルなベースライン
- Authors: Beomyoung Kim, Myeong Yeon Yi, Joonsang Yu, Young Joon Yoo, Sung Ju Hwang,
- Abstract要約: 我々は、新しい学習パラダイム、弱半教師付きヒトマット(WSSHM)を導入する。
WSSHMは、少量の高価なマットラベルと大量の予算に優しいセグメンテーションラベルを使用して、アノテーションのコストを節約し、ドメインの一般化問題を解決する。
また, 実時間モデルにも容易に適用でき, ブレークネック推論速度で競合精度を達成できる。
- 参考スコア(独自算出の注目度): 50.99997483069828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a new practical training method for human matting, which demands delicate pixel-level human region identification and significantly laborious annotations. To reduce the annotation cost, most existing matting approaches often rely on image synthesis to augment the dataset. However, the unnaturalness of synthesized training images brings in a new domain generalization challenge for natural images. To address this challenge, we introduce a new learning paradigm, weakly semi-supervised human matting (WSSHM), which leverages a small amount of expensive matte labels and a large amount of budget-friendly segmentation labels, to save the annotation cost and resolve the domain generalization problem. To achieve the goal of WSSHM, we propose a simple and effective training method, named Matte Label Blending (MLB), that selectively guides only the beneficial knowledge of the segmentation and matte data to the matting model. Extensive experiments with our detailed analysis demonstrate our method can substantially improve the robustness of the matting model using a few matte data and numerous segmentation data. Our training method is also easily applicable to real-time models, achieving competitive accuracy with breakneck inference speed (328 FPS on NVIDIA V100 GPU). The implementation code is available at \url{https://github.com/clovaai/WSSHM}.
- Abstract(参考訳): 本稿では, 微妙な画素レベルのヒト領域識別と, 極めて退屈なアノテーションを必要とする, 人間の交配のための新しい実践的訓練手法を提案する。
アノテーションのコストを削減するため、既存のマッチングアプローチの多くは、データセットを拡張するために画像合成に頼っていることが多い。
しかし、合成訓練画像の不自然さは、自然画像に新たな領域一般化の挑戦をもたらす。
この課題に対処するために、我々は、少量の高価なマットラベルと大量の予算に優しいセグメンテーションラベルを活用して、アノテーションコストを節約し、ドメインの一般化問題を解決する、弱い半教師付きヒューマン・マッティング(WSSHM)という新しい学習パラダイムを導入する。
WSSHMの目的を達成するために、我々は、セグメンテーションとマットデータの有益な知識のみをマットモデルに選択的に導く、シンプルで効果的なトレーニング手法であるMatte Label Blending (MLB)を提案する。
本手法は,数個のマットデータと多数のセグメンテーションデータを用いて,マットモデルのロバスト性を大幅に向上させることができることを示す。
また,我々のトレーニング手法はリアルタイムモデルにも容易に適用でき,NVIDIA V100 GPU上でのブレークネック推論速度(328 FPS)による競合精度を実現している。
実装コードは \url{https://github.com/clovaai/WSSHM} で公開されている。
関連論文リスト
- Diffusion for Natural Image Matting [93.86689168212241]
DiffMatteは、画像マッチングの課題を克服するために設計されたソリューションである。
まず、DiffMatteはデコーダを複雑な結合されたマッティングネットワーク設計から切り離し、拡散プロセスのイテレーションで1つの軽量デコーダだけを含む。
第2に、均一な時間間隔を持つ自己整合トレーニング戦略を採用し、時間領域全体にわたるトレーニングと推論の間に一貫したノイズサンプリングを確保する。
論文 参考訳(メタデータ) (2023-12-10T15:28:56Z) - SGM-Net: Semantic Guided Matting Net [5.126872642595207]
我々は,前景の確率マップを生成し,それをMODNetに追加してセマンティックガイドマッチングネット(SGM-Net)を得るモジュールを提案する。
1つの画像しか持たない状態では、人間の交尾作業を実現することができる。
論文 参考訳(メタデータ) (2022-08-16T01:58:25Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Semi-weakly Supervised Contrastive Representation Learning for Retinal
Fundus Images [0.2538209532048867]
本稿では,半弱化アノテーションを用いた表現学習のための,半弱化教師付きコントラスト学習フレームワークを提案する。
SWCLの移動学習性能を7つの公立網膜眼底データセットで実証的に検証した。
論文 参考訳(メタデータ) (2021-08-04T15:50:09Z) - Towards Single Stage Weakly Supervised Semantic Segmentation [2.28438857884398]
弱教師付きセマンティックセグメンテーションへのシングルステージアプローチを提案する。
ポイントアノテーションを使用して、オンザフライで信頼性の高い擬似マスクを生成します。
我々は、最近の実世界のデータセットにおいて、他のSOTA WSSS手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-06-18T18:34:50Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Leveraging Self-Supervision for Cross-Domain Crowd Counting [71.75102529797549]
混雑したシーンで人をカウントするための最先端の方法は、群衆密度を推定するために深いネットワークに依存します。
われわれのネットワークは、通常の画像から逆さまの実際の画像を認識できるように訓練し、その不確実性を予測する能力を組み込む。
このアルゴリズムは、推論時に余分な計算をせずに、最先端のクロスドメイン群をカウントするアルゴリズムを一貫して上回る。
論文 参考訳(メタデータ) (2021-03-30T12:37:55Z) - Learning to Sample the Most Useful Training Patches from Images [11.219920058662698]
我々は、画像から最も有用なパッチを選択して、新しいトレーニングセットを構築する、PatchNetと呼ばれるデータ駆動型アプローチを提案する。
我々の単純なアイデアは、大規模なデータセットから情報的サンプルを自動的に選択することを示し、PSNRの観点で2.35dBの一般化が驚くべき結果となった。
論文 参考訳(メタデータ) (2020-11-24T14:06:50Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。