論文の概要: Deep Learning Technique for Human Parsing: A Survey and Outlook
- arxiv url: http://arxiv.org/abs/2301.00394v1
- Date: Sun, 1 Jan 2023 12:39:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:10:57.262775
- Title: Deep Learning Technique for Human Parsing: A Survey and Outlook
- Title(参考訳): 人間の解析のためのディープラーニング技術:調査と展望
- Authors: Lu Yang, Wenhe Jia, Shan Li, Qing Song
- Abstract要約: 本調査では,1人のパース,複数人のパース,ビデオ人間のパースという3つのサブタスクを総合的にレビューする。
我々はトランスフォーマーに基づくヒューマンパーシングフレームワークを提案し、フォローアップ研究のための高性能なベースラインを提供する。
この分野では未検討のオープンな課題の集合を指摘し、今後の研究に向けた新たな方向性を提案する。
- 参考スコア(独自算出の注目度): 7.8676903300824925
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human parsing aims to partition humans in image or video into multiple
pixel-level semantic parts. In the last decade, it has gained significantly
increased interest in the computer vision community and has been utilized in a
broad range of practical applications, from security monitoring, to social
media, to visual special effects, just to name a few. Although deep
learning-based human parsing solutions have made remarkable achievements, many
important concepts, existing challenges, and potential research directions are
still confusing. In this survey, we comprehensively review three core
sub-tasks: single human parsing, multiple human parsing, and video human
parsing, by introducing their respective task settings, background concepts,
relevant problems and applications, representative literature, and datasets. We
also present quantitative performance comparisons of the reviewed methods on
benchmark datasets. Additionally, to promote sustainable development of the
community, we put forward a transformer-based human parsing framework,
providing a high-performance baseline for follow-up research through universal,
concise, and extensible solutions. Finally, we point out a set of
under-investigated open issues in this field and suggest new directions for
future study. We also provide a regularly updated project page, to continuously
track recent developments in this fast-advancing field:
https://github.com/soeaver/awesome-human-parsing.
- Abstract(参考訳): human parseは、人間を画像やビデオで複数のピクセルレベルのセマンティックな部分に分割することを目的としている。
過去10年間で、コンピュータビジョンコミュニティの関心が大幅に高まり、セキュリティ監視からソーシャルメディア、ビジュアル特殊効果に至るまで、さまざまな実用的なアプリケーションで利用されている。
ディープラーニングに基づく人間解析ソリューションは目覚ましい成果を上げてきたが、多くの重要な概念、既存の課題、そして潜在的研究の方向性はいまだに混乱している。
本稿では,それぞれのタスク設定,背景概念,関連する問題とアプリケーション,代表文献,データセットを紹介することにより,3つのコアサブタスクを包括的にレビューする。
また,ベンチマークデータセットにおけるレビュー法の性能比較を行った。
さらに,コミュニティの持続可能な発展を促進するために,トランスフォーマティブベースのヒューマンパースフレームワークを策定し,ユニバーサル,簡潔,拡張可能なソリューションを通じたフォローアップ研究のための高性能ベースラインを提供する。
最後に,この分野における未調査の課題を指摘し,今後の研究に向けた新たな方向性を提案する。
また、定期的に更新されたプロジェクトページも提供し、この高速開発分野における最近の開発を継続的に追跡しています。
関連論文リスト
- HumanBench: Towards General Human-centric Perception with Projector
Assisted Pretraining [75.1086193340286]
汎用的な人中心下流作業のための一般的な事前訓練モデルを持つことが望ましい。
本研究では,既存のデータセットをベースとしたtextbfHumanBench を提案する。
我々のPATHは、17の下流データセットと他の2つのデータセットの中間結果に対して、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2023-03-10T02:57:07Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Deep Learning for Human Parsing: A Survey [54.812353922568995]
本研究では,人間の意味解析の先駆的な研究の幅広い範囲を網羅する,最先端の人間の構文解析手法の解析を行う。
1) 構造駆動型アーキテクチャは,人体の異なる部分と固有の階層構造を生かし,(2) グラフベースのネットワークは,効率的で完全な人体分析を実現するためにグローバルな情報を捉え,(3) コンテキスト認識ネットワークは,対応するクラスのピクセルを特徴付けるために,すべてのピクセルにわたって有用なコンテキストを探索し,(4) LSTMベースの手法は,短距離と長距離空間の依存関係を結合して,豊富な局所的・グローバルなコンテキストをうまく活用することができる。
論文 参考訳(メタデータ) (2023-01-29T10:54:56Z) - Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep
Learning Perspective [69.44384540002358]
この問題に対処するための包括的で包括的な2D-to-3D視点を提供する。
2014年からの主流とマイルストーンのアプローチを統一フレームワークで分類しています。
また,ポーズ表現スタイル,ベンチマーク,評価指標,一般的なアプローチの定量的評価を要約した。
論文 参考訳(メタデータ) (2021-04-23T11:07:07Z) - Deep Learning-Based Human Pose Estimation: A Survey [66.01917727294163]
人間のポーズ推定は、過去10年間に注目を集めてきた。
ヒューマン・コンピュータ・インタラクション、モーション・アナリティクス、拡張現実、バーチャル・リアリティーなど幅広い用途で利用されている。
最近のディープラーニングベースのソリューションは、人間のポーズ推定において高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-12-24T18:49:06Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。