論文の概要: Differentiable Multi-Granularity Human Representation Learning for
Instance-Aware Human Semantic Parsing
- arxiv url: http://arxiv.org/abs/2103.04570v1
- Date: Mon, 8 Mar 2021 06:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-03-09 22:24:23.371273
- Title: Differentiable Multi-Granularity Human Representation Learning for
Instance-Aware Human Semantic Parsing
- Title(参考訳): インスタンス認識型ヒューマン・セマンティック・パーシングのための多粒性人間表現学習
- Authors: Tianfei Zhou, Wenguan Wang, Si Liu, Yi Yang, Luc Van Gool
- Abstract要約: カテゴリーレベルの人間のセマンティックセグメンテーションとマルチパーソンポーズ推定を共同およびエンドツーエンドで学習するために,新たなボトムアップ方式を提案する。
さまざまな人間の粒度にわたって構造情報を利用する、コンパクトで効率的で強力なフレームワークです。
3つのインスタンス認識型ヒューマンデータセットの実験は、我々のモデルがより効率的な推論で他のボトムアップの代替案よりも優れていることを示している。
- 参考スコア(独自算出の注目度): 131.97475877877608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To address the challenging task of instance-aware human part parsing, a new
bottom-up regime is proposed to learn category-level human semantic
segmentation as well as multi-person pose estimation in a joint and end-to-end
manner. It is a compact, efficient and powerful framework that exploits
structural information over different human granularities and eases the
difficulty of person partitioning. Specifically, a dense-to-sparse projection
field, which allows explicitly associating dense human semantics with sparse
keypoints, is learnt and progressively improved over the network feature
pyramid for robustness. Then, the difficult pixel grouping problem is cast as
an easier, multi-person joint assembling task. By formulating joint association
as maximum-weight bipartite matching, a differentiable solution is developed to
exploit projected gradient descent and Dykstra's cyclic projection algorithm.
This makes our method end-to-end trainable and allows back-propagating the
grouping error to directly supervise multi-granularity human representation
learning. This is distinguished from current bottom-up human parsers or pose
estimators which require sophisticated post-processing or heuristic greedy
algorithms. Experiments on three instance-aware human parsing datasets show
that our model outperforms other bottom-up alternatives with much more
efficient inference.
- Abstract(参考訳): インスタンス認識型人間部分解析の課題に対処するために,カテゴリーレベルの人間意味セグメンテーションと多人数ポーズ推定を統合的・エンドツーエンド的に学習する新しいボトムアップレジームを提案する。
これはコンパクトで効率的で強力なフレームワークであり、異なる人間の粒度に関する構造情報を活用し、人的分割の難易度を緩和する。
具体的には、密接な人間のセマンティクスとスパースキーポイントを明示的に関連付ける密接な対疎射影場を学習し、堅牢性のためにネットワーク特徴ピラミッド上で段階的に改善する。
そして、難解な画素グループ化問題を、より容易で多人数の共同組み立てタスクとして提示する。
結合結合を最大重二分法マッチングとして定式化することにより、投影された勾配降下とDykstraの巡回射影アルゴリズムを利用する微分可能な解を開発した。
これにより、エンドツーエンドのトレーニングが可能となり、グループ化エラーをバックプロパゲーションすることで、複数の粒度人間の表現学習を直接監督することができる。
これは、現在のボトムアップ型人間のパーサーや、高度な後処理やヒューリスティックグリーディアルゴリズムを必要とするポーズ推定器と区別される。
3つのインスタンス認識型ヒューマンパースデータセットの実験は、我々のモデルがより効率的な推論で他のボトムアップの代替案よりも優れていることを示している。
関連論文リスト
- Deep Learning for Human Parsing: A Survey [54.812353922568995]
本研究では,人間の意味解析の先駆的な研究の幅広い範囲を網羅する,最先端の人間の構文解析手法の解析を行う。
1) 構造駆動型アーキテクチャは,人体の異なる部分と固有の階層構造を生かし,(2) グラフベースのネットワークは,効率的で完全な人体分析を実現するためにグローバルな情報を捉え,(3) コンテキスト認識ネットワークは,対応するクラスのピクセルを特徴付けるために,すべてのピクセルにわたって有用なコンテキストを探索し,(4) LSTMベースの手法は,短距離と長距離空間の依存関係を結合して,豊富な局所的・グローバルなコンテキストをうまく活用することができる。
論文 参考訳(メタデータ) (2023-01-29T10:54:56Z) - Unsupervised Learning on 3D Point Clouds by Clustering and Contrasting [11.64827192421785]
教師なし表現学習は、人間の介入なしに機能を自動抽出するための有望な方向である。
本稿では、ポイントワイドおよびグローバルな特徴の学習を行うために、textbfConClu という、一般的な教師なしアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-05T12:54:17Z) - End-to-end One-shot Human Parsing [91.5113227694443]
One-shot Human Parsing (OSHP) タスクでは、テスト例によって定義されたオープンなクラスに人間を解析する必要がある。
EOP-Net (End-to-end One-shot Human Parsing Network) が提案されている。
EOP-Netは、一発セグメンテーションモデルを大きなマージンで上回る。
論文 参考訳(メタデータ) (2021-05-04T01:35:50Z) - Group-Skeleton-Based Human Action Recognition in Complex Events [15.649778891665468]
本稿では,複合イベントにおけるグループ骨格に基づく人間行動認識手法を提案する。
本手法はまず,マルチスケール空間時間グラフ畳み込みネットワーク(MS-G3D)を用いて,複数の人物から骨格の特徴を抽出する。
HiEveデータセットの結果から,本手法は他の最先端手法と比較して優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-11-26T13:19:14Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Differentiable Hierarchical Graph Grouping for Multi-Person Pose
Estimation [95.72606536493548]
複数の人の身体のキーポイントを同時にローカライズするため、複数の人物のポーズ推定は困難である。
ボトムアップ型多人数ポーズ推定タスクにおけるグラフグループ化を学習するための,新しい微分可能な階層グラフグループ化(HGG)手法を提案する。
論文 参考訳(メタデータ) (2020-07-23T08:46:22Z) - Hierarchical Human Parsing with Typed Part-Relation Reasoning [179.64978033077222]
このタスクでは、人体構造をモデル化する方法が中心的なテーマである。
深層グラフネットワークの表現能力と階層的人間構造を同時に活用することを模索する。
論文 参考訳(メタデータ) (2020-03-10T16:45:41Z) - Focus on Semantic Consistency for Cross-domain Crowd Understanding [34.560447389853614]
いくつかのドメイン適応アルゴリズムは、合成データでモデルをトレーニングすることでそれを解放しようとする。
その結果,背景領域における推定誤差が既存手法の性能を阻害していることが判明した。
本稿では,ドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2020-02-20T08:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。