論文の概要: SGM-Net: Semantic Guided Matting Net
- arxiv url: http://arxiv.org/abs/2208.07496v1
- Date: Tue, 16 Aug 2022 01:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-17 12:30:19.396506
- Title: SGM-Net: Semantic Guided Matting Net
- Title(参考訳): SGM-Net:Semantic Guided Matting Net
- Authors: Qing Song, Wenfeng Sun, Donghan Yang, Mengjie Hu, Chun Liu
- Abstract要約: 我々は,前景の確率マップを生成し,それをMODNetに追加してセマンティックガイドマッチングネット(SGM-Net)を得るモジュールを提案する。
1つの画像しか持たない状態では、人間の交尾作業を実現することができる。
- 参考スコア(独自算出の注目度): 5.126872642595207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human matting refers to extracting human parts from natural images with high
quality, including human detail information such as hair, glasses, hat, etc.
This technology plays an essential role in image synthesis and visual effects
in the film industry. When the green screen is not available, the existing
human matting methods need the help of additional inputs (such as trimap,
background image, etc.), or the model with high computational cost and complex
network structure, which brings great difficulties to the application of human
matting in practice. To alleviate such problems, most existing methods (such as
MODNet) use multi-branches to pave the way for matting through segmentation,
but these methods do not make full use of the image features and only utilize
the prediction results of the network as guidance information. Therefore, we
propose a module to generate foreground probability map and add it to MODNet to
obtain Semantic Guided Matting Net (SGM-Net). Under the condition of only one
image, we can realize the human matting task. We verify our method on the
P3M-10k dataset. Compared with the benchmark, our method has significantly
improved in various evaluation indicators.
- Abstract(参考訳): ヒューマン・マット(Human matting)とは、人間の毛髪、眼鏡、帽子などの細部情報を含む、品質の高い自然画像から人間の部分を取り出すこと。
この技術は、映画産業における画像合成と視覚効果において重要な役割を担っている。
グリーンスクリーンが利用できない場合、既存のヒューマン・マッティング法は、追加の入力(トリマップ、背景画像など)、あるいは計算コストが高く複雑なネットワーク構造を持つモデルを必要とするため、実際にヒト・マッティングを適用するのは非常に困難である。
このような問題を緩和するために、既存のほとんどの手法(MODNetなど)はマルチブランチを使用してセグメンテーションを通じてマッチングを行うが、これらの手法は画像の特徴を完全に活用せず、ネットワークの予測結果のみをガイダンス情報として利用する。
そこで我々は,前景の確率マップを生成し,それをMODNetに追加してセマンティックガイドマッチングネット(SGM-Net)を得るモジュールを提案する。
1枚の画像のみの状態では、人間のマットングタスクを実現できる。
P3M-10kデータセット上で本手法を検証する。
ベンチマークと比較すると,提案手法は様々な評価指標において著しく改善した。
関連論文リスト
- MOCA: Self-supervised Representation Learning by Predicting Masked
Online Codebook Assignments [48.67345147676275]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
相乗的, 計算効率の両パラダイムを効果的に活用する方法を示す。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Robust Human Matting via Semantic Guidance [35.374012964806745]
我々はSemantic Guided Human Matting(SGHM)という,高速かつ高精度なヒューマン・マッチング・フレームワークを開発した。
セグメンテーションネットワーク上に構築され、限界計算コストのみの軽量なマッティングモジュールを導入している。
実験の結果,200個のマッチング画像でトレーニングした結果,本手法は実世界のデータセットによく適応できることがわかった。
論文 参考訳(メタデータ) (2022-10-11T07:25:33Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - PP-Matting: High-Accuracy Natural Image Matting [11.68134059283327]
PP-Mattingは、高精度な自然な画像マッチングを実現するトリマップのないアーキテクチャである。
本手法は,前景のきめ細かい詳細を抽出する高精細ディテールブランチ (HRDB) を適用する。
また,意味的セグメンテーションのサブタスクを採用した意味的文脈分岐(SCB)を提案する。
論文 参考訳(メタデータ) (2022-04-20T12:54:06Z) - Virtual Multi-Modality Self-Supervised Foreground Matting for
Human-Object Interaction [18.14237514372724]
本稿では,仮想マルチモーダル・フォアグラウンド・マッティング(VMFM)手法を提案する。
VMFMメソッドはトリマップや既知のバックグラウンドなどの追加入力を必要としない。
我々は,前景マッティングを自己監督型マルチモーダリティ問題として再構成する。
論文 参考訳(メタデータ) (2021-10-07T09:03:01Z) - Hand Image Understanding via Deep Multi-Task Learning [34.515382305252814]
単一のRGB画像から手動物体の包括的情報を抽出する新しい手動画像理解(HIU)フレームワークを提案する。
提案手法は, 様々な広く使用されているデータセットに対する最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-24T16:28:06Z) - Deep Automatic Natural Image Matting [82.56853587380168]
自動画像マッチング(AIM)とは、任意の自然画像からソフトフォアグラウンドをトリマップのような補助的な入力なしで推定することである。
本稿では,これらの画像の一般化されたトリマップを統一的な意味表現として予測できる,新しいエンドツーエンドマッチングネットワークを提案する。
我々のネットワークは、利用可能な合成マッチングデータセットをトレーニングし、既存の手法を客観的にも主観的にも優れています。
論文 参考訳(メタデータ) (2021-07-15T10:29:01Z) - Improved Image Matting via Real-time User Clicks and Uncertainty
Estimation [87.84632514927098]
本論文では,トリムアップフリーで,ユーザによるクリック操作だけであいまいさを解消できる深層画像マッチングフレームワークを提案する。
研磨が必要な部品を予測できる新しい不確実性推定モジュールと、以下の局所精製モジュールを紹介します。
その結果,既存の trimap-free メソッドよりも優れた性能を示し,ユーザの労力を最小限に抑え,最先端の trimap-based メソッドと比較できることがわかった。
論文 参考訳(メタデータ) (2020-12-15T14:32:36Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。