Fugu-MT 論文翻訳(概要): Deep Learning Technique for Human Parsing: A Survey and Outlook

論文の概要: Deep Learning Technique for Human Parsing: A Survey and Outlook

arxiv url: http://arxiv.org/abs/2301.00394v1
Date: Sun, 1 Jan 2023 12:39:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-03 15:10:57.262775
Title: Deep Learning Technique for Human Parsing: A Survey and Outlook
Title（参考訳）: 人間の解析のためのディープラーニング技術:調査と展望
Authors: Lu Yang, Wenhe Jia, Shan Li, Qing Song
Abstract要約: 本調査では,1人のパース,複数人のパース,ビデオ人間のパースという3つのサブタスクを総合的にレビューする。我々はトランスフォーマーに基づくヒューマンパーシングフレームワークを提案し、フォローアップ研究のための高性能なベースラインを提供する。この分野では未検討のオープンな課題の集合を指摘し、今後の研究に向けた新たな方向性を提案する。
参考スコア（独自算出の注目度）: 7.8676903300824925
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Human parsing aims to partition humans in image or video into multiple pixel-level semantic parts. In the last decade, it has gained significantly increased interest in the computer vision community and has been utilized in a broad range of practical applications, from security monitoring, to social media, to visual special effects, just to name a few. Although deep learning-based human parsing solutions have made remarkable achievements, many important concepts, existing challenges, and potential research directions are still confusing. In this survey, we comprehensively review three core sub-tasks: single human parsing, multiple human parsing, and video human parsing, by introducing their respective task settings, background concepts, relevant problems and applications, representative literature, and datasets. We also present quantitative performance comparisons of the reviewed methods on benchmark datasets. Additionally, to promote sustainable development of the community, we put forward a transformer-based human parsing framework, providing a high-performance baseline for follow-up research through universal, concise, and extensible solutions. Finally, we point out a set of under-investigated open issues in this field and suggest new directions for future study. We also provide a regularly updated project page, to continuously track recent developments in this fast-advancing field: https://github.com/soeaver/awesome-human-parsing.
Abstract（参考訳）: human parseは、人間を画像やビデオで複数のピクセルレベルのセマンティックな部分に分割することを目的としている。過去10年間で、コンピュータビジョンコミュニティの関心が大幅に高まり、セキュリティ監視からソーシャルメディア、ビジュアル特殊効果に至るまで、さまざまな実用的なアプリケーションで利用されている。ディープラーニングに基づく人間解析ソリューションは目覚ましい成果を上げてきたが、多くの重要な概念、既存の課題、そして潜在的研究の方向性はいまだに混乱している。本稿では,それぞれのタスク設定,背景概念,関連する問題とアプリケーション,代表文献,データセットを紹介することにより,3つのコアサブタスクを包括的にレビューする。また,ベンチマークデータセットにおけるレビュー法の性能比較を行った。さらに,コミュニティの持続可能な発展を促進するために,トランスフォーマティブベースのヒューマンパースフレームワークを策定し,ユニバーサル,簡潔,拡張可能なソリューションを通じたフォローアップ研究のための高性能ベースラインを提供する。最後に,この分野における未調査の課題を指摘し,今後の研究に向けた新たな方向性を提案する。また、定期的に更新されたプロジェクトページも提供し、この高速開発分野における最近の開発を継続的に追跡しています。

関連論文リスト

Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文参考訳（メタデータ） (2024-05-13T14:44:22Z)
A Unified Framework for Human-centric Point Cloud Video Understanding [23.91555808792291]
人間中心のポイントクラウドビデオ理解(PVU)は、人間のポイントクラウドのシーケンスから人間に関連する特徴を抽出し、解釈することに焦点を当てた新興分野である。本稿では,従来の知識を十分に活用する統一的なフレームワークを提案し,汎用的人間中心のクラウドビデオ理解のためのデータ自体の本質的特徴を探求する。本手法は,動作認識や3次元ポーズ推定など,多種多様なヒューマンタスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-03-29T07:53:06Z)
A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented, Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文参考訳（メタデータ） (2023-03-08T01:29:55Z)
Deep Learning for Human Parsing: A Survey [54.812353922568995]
本研究では,人間の意味解析の先駆的な研究の幅広い範囲を網羅する,最先端の人間の構文解析手法の解析を行う。 1) 構造駆動型アーキテクチャは,人体の異なる部分と固有の階層構造を生かし,(2) グラフベースのネットワークは,効率的で完全な人体分析を実現するためにグローバルな情報を捉え,(3) コンテキスト認識ネットワークは,対応するクラスのピクセルを特徴付けるために,すべてのピクセルにわたって有用なコンテキストを探索し,(4) LSTMベースの手法は,短距離と長距離空間の依存関係を結合して,豊富な局所的・グローバルなコンテキストをうまく活用することができる。
論文参考訳（メタデータ） (2023-01-29T10:54:56Z)
Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep Learning Perspective [69.44384540002358]
この問題に対処するための包括的で包括的な2D-to-3D視点を提供する。 2014年からの主流とマイルストーンのアプローチを統一フレームワークで分類しています。また,ポーズ表現スタイル,ベンチマーク,評価指標,一般的なアプローチの定量的評価を要約した。
論文参考訳（メタデータ） (2021-04-23T11:07:07Z)
Deep Learning-Based Human Pose Estimation: A Survey [66.01917727294163]
人間のポーズ推定は、過去10年間に注目を集めてきた。ヒューマン・コンピュータ・インタラクション、モーション・アナリティクス、拡張現実、バーチャル・リアリティーなど幅広い用途で利用されている。最近のディープラーニングベースのソリューションは、人間のポーズ推定において高いパフォーマンスを実現している。
論文参考訳（メタデータ） (2020-12-24T18:49:06Z)
Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文参考訳（メタデータ） (2020-07-07T17:19:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。