論文の概要: Clicking Matters:Towards Interactive Human Parsing
- arxiv url: http://arxiv.org/abs/2111.06162v1
- Date: Thu, 11 Nov 2021 11:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 14:35:27.087263
- Title: Clicking Matters:Towards Interactive Human Parsing
- Title(参考訳): クリックマター:対話型ヒューマンパーシングへ
- Authors: Yutong Gao, Liqian Liang, Congyan Lang, Songhe Feng, Yidong Li,
Yunchao Wei
- Abstract要約: この研究は、対話的な環境下での人間の解析課題に取り組む最初の試みである。
ベンチマークLIPでは85% mIoU,PASCAL-Person-Partでは80% mIoU,Helenでは75% mIoU,クラス毎のクリック数は1.95,3.02,2.84,1.09であった。
- 参考スコア(独自算出の注目度): 60.35351491254932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we focus on Interactive Human Parsing (IHP), which aims to
segment a human image into multiple human body parts with guidance from users'
interactions. This new task inherits the class-aware property of human parsing,
which cannot be well solved by traditional interactive image segmentation
approaches that are generally class-agnostic. To tackle this new task, we first
exploit user clicks to identify different human parts in the given image. These
clicks are subsequently transformed into semantic-aware localization maps,
which are concatenated with the RGB image to form the input of the segmentation
network and generate the initial parsing result. To enable the network to
better perceive user's purpose during the correction process, we investigate
several principal ways for the refinement, and reveal that
random-sampling-based click augmentation is the best way for promoting the
correction effectiveness. Furthermore, we also propose a semantic-perceiving
loss (SP-loss) to augment the training, which can effectively exploit the
semantic relationships of clicks for better optimization. To the best
knowledge, this work is the first attempt to tackle the human parsing task
under the interactive setting. Our IHP solution achieves 85\% mIoU on the
benchmark LIP, 80\% mIoU on PASCAL-Person-Part and CIHP, 75\% mIoU on Helen
with only 1.95, 3.02, 2.84 and 1.09 clicks per class respectively. These
results demonstrate that we can simply acquire high-quality human parsing masks
with only a few human effort. We hope this work can motivate more researchers
to develop data-efficient solutions to IHP in the future.
- Abstract(参考訳): 本研究は,対話型ヒューマンパーシング(Interactive Human Parsing, IHP)に焦点を当て,人間の画像を複数の人体に分割し,ユーザのインタラクションから誘導することを目的とする。
この新しいタスクは、人間解析のクラス認識特性を継承しており、一般的にクラスに依存しない従来のインタラクティブなイメージセグメンテーションアプローチではうまく解決できない。
この新しいタスクに取り組むために、まず、ユーザークリックを利用して、画像中の異なる人間の部分を特定する。
これらのクリックはその後、意味認識のローカライゼーションマップに変換され、RGB画像と結合してセグメンテーションネットワークの入力を形成し、初期解析結果を生成する。
修正プロセスにおいて,ネットワークがユーザの目的をよりよく認識できるようにするため,改良のいくつかの主要な方法を調査し,ランダムサンプリングに基づくクリック拡張が修正の有効性を高める最善の方法であることを明らかにした。
さらに、より優れた最適化のために、クリックの意味関係を効果的に活用できる訓練を強化する意味認識損失(SP-loss)を提案する。
最善の知識として、この研究は対話的な環境下で人間のパースタスクに取り組む最初の試みである。
ベンチマークLIPでは85 % mIoU,PASCAL-Person-Partでは80 % mIoU,Helenでは75 % mIoU,クラス毎に1.95 ,3.02 , 2.84 および 1.09 クリックしか得られなかった。
これらの結果から,人的努力の少ない高品質なパーシングマスクを簡便に取得できることが示唆された。
この研究により、将来的にはより多くの研究者がihpのデータ効率の良いソリューションを開発できることを期待しています。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - CorrMatch: Label Propagation via Correlation Matching for
Semi-Supervised Semantic Segmentation [73.89509052503222]
本稿では、CorrMatchと呼ばれる、単純だが実行可能な半教師付きセマンティックセマンティックセマンティックセマンティクス手法を提案する。
相関写像は、同一カテゴリのクラスタリングピクセルを容易に実現できるだけでなく、良好な形状情報も含んでいることを観察する。
我々は,高信頼画素を拡大し,さらに掘り出すために,画素の対の類似性をモデル化して画素伝搬を行う。
そして、相関地図から抽出した正確なクラス非依存マスクを用いて、領域伝搬を行い、擬似ラベルを強化する。
論文 参考訳(メタデータ) (2023-06-07T10:02:29Z) - ViPLO: Vision Transformer based Pose-Conditioned Self-Loop Graph for
Human-Object Interaction Detection [20.983998911754792]
2段階のHuman-Object Interaction (HOI)検出器は1段階法よりも性能が低い。
これらの問題を解決するために視覚変換器を用いたPose-Conditioned Self-Loop Graph (ViPLO)を提案する。
ViPLOは2つの公開ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-04-17T09:44:54Z) - Interactive segmentation using U-Net with weight map and dynamic user
interactions [0.0]
本稿では,現在のセグメンテーションマスクに基づいてユーザクリックを動的にサイズに適応させるインタラクティブセグメンテーションフレームワークを提案する。
クリックされた領域は重みマップを形成し、新しい重み付き損失関数としてディープニューラルネットワークに供給される。
動的なユーザクリックサイズを適用すると、それぞれ5.60%と10.39%の精度が向上する。
論文 参考訳(メタデータ) (2021-11-18T15:08:11Z) - FAIRS -- Soft Focus Generator and Attention for Robust Object
Segmentation from Extreme Points [70.65563691392987]
本稿では,ユーザ入力からオブジェクトのセグメンテーションを極端点と補正クリックの形で生成する手法を提案する。
提案手法は,エクストリームポイント,クリック誘導,修正クリックを原則として組み込んだ,高品質なトレーニングデータを生成する能力とスケーラビリティを実証する。
論文 参考訳(メタデータ) (2020-04-04T22:25:47Z) - Learning Attentive Pairwise Interaction for Fine-Grained Classification [53.66543841939087]
本稿では,細粒度分類のための簡易かつ効果的な監視ペアワイド・インタラクション・ネットワーク(API-Net)を提案する。
API-Netはまず相互機能ベクトルを学習し、入力ペアのセマンティックな違いをキャプチャする。
そして、この相互ベクトルと個々のベクトルを比較して、各入力画像のゲートを生成する。
詳細な分類において,5つの人気のあるベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2020-02-24T12:17:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。