論文の概要: RepParser: End-to-End Multiple Human Parsing with Representative Parts
- arxiv url: http://arxiv.org/abs/2208.12908v1
- Date: Sat, 27 Aug 2022 02:22:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-08-30 13:45:11.216637
- Title: RepParser: End-to-End Multiple Human Parsing with Representative Parts
- Title(参考訳): RepParser: 代表部分を持つ複数人のパース
- Authors: Xiaojia Chen, Xuanhan Wang, Lianli Gao, Jingkuan Song
- Abstract要約: 本稿では、Repと呼ばれる代表部品を用いたエンドツーエンドのマルチパーシング・フレームワークを提案する。
Repは、人検出やポストグループ化に頼ることなく、新しい単一ステージで複数の人間のパーシングを解決する。
- 参考スコア(独自算出の注目度): 74.31841289680563
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing methods of multiple human parsing usually adopt a two-stage strategy
(typically top-down and bottom-up), which suffers from either strong dependence
on prior detection or highly computational redundancy during post-grouping. In
this work, we present an end-to-end multiple human parsing framework using
representative parts, termed RepParser. Different from mainstream methods,
RepParser solves the multiple human parsing in a new single-stage manner
without resorting to person detection or post-grouping.To this end, RepParser
decouples the parsing pipeline into instance-aware kernel generation and
part-aware human parsing, which are responsible for instance separation and
instance-specific part segmentation, respectively. In particular, we empower
the parsing pipeline by representative parts, since they are characterized by
instance-aware keypoints and can be utilized to dynamically parse each person
instance. Specifically, representative parts are obtained by jointly localizing
centers of instances and estimating keypoints of body part regions. After that,
we dynamically predict instance-aware convolution kernels through
representative parts, thus encoding person-part context into each kernel
responsible for casting an image feature as an instance-specific
representation.Furthermore, a multi-branch structure is adopted to divide each
instance-specific representation into several part-aware representations for
separate part segmentation.In this way, RepParser accordingly focuses on person
instances with the guidance of representative parts and directly outputs
parsing results for each person instance, thus eliminating the requirement of
the prior detection or post-grouping.Extensive experiments on two challenging
benchmarks demonstrate that our proposed RepParser is a simple yet effective
framework and achieves very competitive performance.
- Abstract(参考訳): 既存のマルチヒューマンパーシングの方法は、通常、2段階戦略(通常はトップダウンとボトムアップ)を採用するが、これは事前検出に強く依存するか、ポストグループ化時に高い計算冗長性に悩まされる。
本稿では、RepParserと呼ばれる代表部品を用いたエンドツーエンドのマルチパーシングフレームワークを提案する。
主流の方法と異なり、RepParserは、人検出や後グループ化に頼ることなく、新しい単一ステージの方法で、複数のヒューマンパーシングを解決している。この目的のために、RepParserは、パーシングパイプラインをインスタンス対応カーネル生成と、インスタンス分離とインスタンス固有の部分分割をそれぞれ担当する部分認識ヒューマンパーシングに分離する。
特に、インスタンス認識キーポイントが特徴であり、各個人インスタンスを動的に解析するために使用できるため、代表部品による解析パイプラインの強化を図る。
具体的には、インスタンスのセンタを共同でローカライズし、本体部分領域のキーポイントを推定して代表部を得る。
After that, we dynamically predict instance-aware convolution kernels through representative parts, thus encoding person-part context into each kernel responsible for casting an image feature as an instance-specific representation.Furthermore, a multi-branch structure is adopted to divide each instance-specific representation into several part-aware representations for separate part segmentation.In this way, RepParser accordingly focuses on person instances with the guidance of representative parts and directly outputs parsing results for each person instance, thus eliminating the requirement of the prior detection or post-grouping.Extensive experiments on two challenging benchmarks demonstrate that our proposed RepParser is a simple yet effective framework and achieves very competitive performance.
関連論文リスト
- DROP: Decouple Re-Identification and Human Parsing with Task-specific
Features for Occluded Person Re-identification [15.910080319118498]
本稿では,隠蔽者再識別(ReID)のためのDouple Re-identificatiOnとHuman Parsing(DROP)手法について紹介する。
ReIDと人間の構文解析の同時学習にグローバルな特徴を用いる主流のアプローチとは異なり、DROPは、前者の劣る性能はReIDと人間の解析機能の異なる要件に起因すると主張している。
実験の結果、DROPの有効性、特にOccluded-Dukeで76.8%のランク1の精度を達成し、2つの主要な方法を超えた。
論文 参考訳(メタデータ) (2024-01-31T17:54:43Z) - DynaMITe: Dynamic Query Bootstrapping for Multi-object Interactive
Segmentation Transformer [58.95404214273222]
最先端のインスタンスセグメンテーション手法の多くは、訓練のために大量のピクセル精度のグランドトルースに依存している。
ユーザインタラクションを時間的クエリとして表現するDynaMITeという,より効率的なアプローチを導入する。
我々のアーキテクチャはまた、改善中にイメージ機能を再計算する必要をなくし、単一のイメージに複数のインスタンスをセグメント化するためのインタラクションを少なくする。
論文 参考訳(メタデータ) (2023-04-13T16:57:02Z) - Fine-grained Few-shot Recognition by Deep Object Parsing [43.61794876834115]
テストインスタンスをK部分を推論することで解析し、各部分が特徴空間内の別の位置を占める。
我々は、そのアクティブテンプレートと、その部分位置の相対幾何学を比較して、テストインスタンスを認識する。
論文 参考訳(メタデータ) (2022-07-14T17:59:05Z) - AIParsing: Anchor-free Instance-level Human Parsing [98.80740676794254]
我々は、アンカーフリーで画素レベルで解決可能なインスタンスレベルのヒューマンパーシングネットワークを設計した。
ボックス予測のためのアンカーフリー検出ヘッドと、人間のセグメンテーションのためのエッジ誘導パーシングヘッドの2つの単純なサブネットワークで構成されている。
提案手法は,最先端のワンステージトップダウン方式よりも優れたグローバルレベルおよびインスタンスレベルの性能を実現する。
論文 参考訳(メタデータ) (2022-07-14T12:19:32Z) - Technical Report: Disentangled Action Parsing Networks for Accurate
Part-level Action Parsing [65.87931036949458]
Part-level Action Parsingは、ビデオにおけるアクション認識を促進するための部分状態解析を目的としている。
DAP(disentangled action parsing)というシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2021-11-05T02:29:32Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - Nondiscriminatory Treatment: a straightforward framework for multi-human
parsing [14.254424142949741]
マルチヒューマンパーシングは、すべての人間のインスタンスのすべてのボディ部分をセグメントすることを目的としている。
我々は,新しい直感的視点から,エンドツーエンドでボックスフリーなパイプラインを提案する。
実験の結果,ネットワークは最先端の手法に対して優れた性能を示す。
論文 参考訳(メタデータ) (2021-01-26T16:31:21Z) - Iterative Utterance Segmentation for Neural Semantic Parsing [38.344720207846905]
反復発話セグメンテーションによるニューラルセマンティクスドメインの促進のための新しいフレームワークを提案する。
重要な利点の1つは、このフレームワークがセグメンタのための手作業の発声やラベル付きデータを必要としないことである。
Geo 63.1 から 81.2, Formulas 59.7 から 72.7, ComplexWebQuestions 27.1 から 56.3 である。
論文 参考訳(メタデータ) (2020-12-13T09:46:24Z) - A Simple Global Neural Discourse Parser [61.728994693410954]
本稿では,手作業で構築した特徴を必要とせず,学習したスパン表現のみに基づく簡易なグラフベースニューラル談話を提案する。
我々は,我々のモデルが世界規模で最高の性能を達成し,最先端の欲求に匹敵する性能を実証的に示す。
論文 参考訳(メタデータ) (2020-09-02T19:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。