論文の概要: Deep Learning Technique for Human Parsing: A Survey and Outlook
- arxiv url: http://arxiv.org/abs/2301.00394v2
- Date: Thu, 14 Mar 2024 02:00:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 03:12:58.567031
- Title: Deep Learning Technique for Human Parsing: A Survey and Outlook
- Title(参考訳): ヒューマンパーシングのためのディープラーニング技術:調査と展望
- Authors: Lu Yang, Wenhe Jia, Shan Li, Qing Song,
- Abstract要約: 本調査では,1人のパース,複数人のパース,ビデオ人間のパースという3つのサブタスクを総合的にレビューする。
我々はトランスフォーマーに基づくヒューマンパーシングフレームワークを提案し、フォローアップ研究のための高性能なベースラインを提供する。
この分野では未検討のオープンな課題の集合を指摘し、今後の研究に向けた新たな方向性を提案する。
- 参考スコア(独自算出の注目度): 5.236995853909988
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human parsing aims to partition humans in image or video into multiple pixel-level semantic parts. In the last decade, it has gained significantly increased interest in the computer vision community and has been utilized in a broad range of practical applications, from security monitoring, to social media, to visual special effects, just to name a few. Although deep learning-based human parsing solutions have made remarkable achievements, many important concepts, existing challenges, and potential research directions are still confusing. In this survey, we comprehensively review three core sub-tasks: single human parsing, multiple human parsing, and video human parsing, by introducing their respective task settings, background concepts, relevant problems and applications, representative literature, and datasets. We also present quantitative performance comparisons of the reviewed methods on benchmark datasets. Additionally, to promote sustainable development of the community, we put forward a transformer-based human parsing framework, providing a high-performance baseline for follow-up research through universal, concise, and extensible solutions. Finally, we point out a set of under-investigated open issues in this field and suggest new directions for future study. We also provide a regularly updated project page, to continuously track recent developments in this fast-advancing field: https://github.com/soeaver/awesome-human-parsing.
- Abstract(参考訳): 人間のパーシングは、人間を画像やビデオに分割し、複数のピクセルレベルのセマンティック部分に分割することを目的としている。
過去10年間で、コンピュータビジョンコミュニティへの関心が大幅に高まり、セキュリティ監視、ソーシャルメディア、視覚特殊効果など、幅広い応用に利用されてきた。
ディープラーニングに基づく人間解析ソリューションは目覚ましい成果を上げてきたが、多くの重要な概念、既存の課題、そして潜在的研究の方向性はいまだに混乱している。
本調査では,各タスク設定,背景概念,関連する問題や応用,代表文献,データセットの3つのサブタスクを総合的にレビューする。
また、ベンチマークデータセット上でのレビュー手法の定量的な性能比較について述べる。
また,地域社会の持続可能な発展を促進するため,トランスフォーマーを基盤としたヒューマン・パーシング・フレームワークを推進し,普遍的で簡潔で拡張可能なソリューションによるフォローアップ研究のための高性能なベースラインを提供する。
最後に,この分野では未解明のオープンな課題の集合を指摘し,今後の研究に向けた新たな方向性を提案する。
また、定期的に更新されたプロジェクトページも提供し、この高速開発分野における最近の開発を継続的に追跡しています。
関連論文リスト
- Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - A Unified Framework for Human-centric Point Cloud Video Understanding [23.91555808792291]
人間中心のポイントクラウドビデオ理解(PVU)は、人間のポイントクラウドのシーケンスから人間に関連する特徴を抽出し、解釈することに焦点を当てた新興分野である。
本稿では,従来の知識を十分に活用する統一的なフレームワークを提案し,汎用的人間中心のクラウドビデオ理解のためのデータ自体の本質的特徴を探求する。
本手法は,動作認識や3次元ポーズ推定など,多種多様なヒューマンタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-29T07:53:06Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Deep Learning for Human Parsing: A Survey [54.812353922568995]
本研究では,人間の意味解析の先駆的な研究の幅広い範囲を網羅する,最先端の人間の構文解析手法の解析を行う。
1) 構造駆動型アーキテクチャは,人体の異なる部分と固有の階層構造を生かし,(2) グラフベースのネットワークは,効率的で完全な人体分析を実現するためにグローバルな情報を捉え,(3) コンテキスト認識ネットワークは,対応するクラスのピクセルを特徴付けるために,すべてのピクセルにわたって有用なコンテキストを探索し,(4) LSTMベースの手法は,短距離と長距離空間の依存関係を結合して,豊富な局所的・グローバルなコンテキストをうまく活用することができる。
論文 参考訳(メタデータ) (2023-01-29T10:54:56Z) - Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep
Learning Perspective [69.44384540002358]
この問題に対処するための包括的で包括的な2D-to-3D視点を提供する。
2014年からの主流とマイルストーンのアプローチを統一フレームワークで分類しています。
また,ポーズ表現スタイル,ベンチマーク,評価指標,一般的なアプローチの定量的評価を要約した。
論文 参考訳(メタデータ) (2021-04-23T11:07:07Z) - Deep Learning-Based Human Pose Estimation: A Survey [66.01917727294163]
人間のポーズ推定は、過去10年間に注目を集めてきた。
ヒューマン・コンピュータ・インタラクション、モーション・アナリティクス、拡張現実、バーチャル・リアリティーなど幅広い用途で利用されている。
最近のディープラーニングベースのソリューションは、人間のポーズ推定において高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-12-24T18:49:06Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。