論文の概要: You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception
- arxiv url: http://arxiv.org/abs/2312.05525v2
- Date: Thu, 14 Mar 2024 15:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 02:02:44.500277
- Title: You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception
- Title(参考訳): 一つの質問しか学ばない: シングルステージマルチパーソン・マルチタスク人間中心認識のための統一されたヒューマンクエリを学習する
- Authors: Sheng Jin, Shuhuai Li, Tong Li, Wentao Liu, Chen Qian, Ping Luo,
- Abstract要約: 人間中心の知覚は、コンピュータビジョンの長年の問題である。
本稿では,一段階多人数マルチタスク人間中心認識(HCP)のための統合多目的フレームワーク(HQNet)を提案する。
Human Queryは、個人のための複雑なインスタンスレベルの機能をキャプチャし、複雑なマルチパーソンシナリオを分離する。
- 参考スコア(独自算出の注目度): 37.667147915777534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-centric perception (e.g. pedetrian detection, segmentation, pose estimation, and attribute analysis) is a long-standing problem for computer vision. This paper introduces a unified and versatile framework (HQNet) for single-stage multi-person multi-task human-centric perception (HCP). Our approach centers on learning a unified human query representation, denoted as Human Query, which captures intricate instance-level features for individual persons and disentangles complex multi-person scenarios. Although different HCP tasks have been well-studied individually, single-stage multi-task learning of HCP tasks has not been fully exploited in the literature due to the absence of a comprehensive benchmark dataset. To address this gap, we propose COCO-UniHuman benchmark dataset to enable model development and comprehensive evaluation. Experimental results demonstrate the proposed method's state-of-the-art performance among multi-task HCP models and its competitive performance compared to task-specific HCP models. Moreover, our experiments underscore Human Query's adaptability to new HCP tasks, thus demonstrating its robust generalization capability. Codes and data will be publicly accessible.
- Abstract(参考訳): 人間中心の知覚(ペデトリアン検出、セグメンテーション、ポーズ推定、属性解析など)は、コンピュータビジョンの長年の問題である。
本稿では,単一段階のマルチタスク人間中心認識(HCP)のための統合多目的フレームワーク(HQNet)を提案する。
提案手法は,個人の複雑なインスタンスレベルの特徴をキャプチャし,複雑な多人数シナリオを解消する,ヒューマンクエリ(Human Query)と呼ばれる統一されたクエリ表現の学習に重点を置いている。
HCPタスクは個別によく研究されているが、総合的なベンチマークデータセットがないため、HCPタスクのシングルステージマルチタスク学習は文献で完全に活用されていない。
このギャップに対処するため,モデル開発と総合評価を可能にするCOCO-UniHumanベンチマークデータセットを提案する。
提案手法のマルチタスクHCPモデルとタスク固有HCPモデルとの競合性能を比較検討した。
さらに,HCPタスクに対するHuman Queryの適応性を評価し,その堅牢な一般化能力を実証した。
コードとデータは公開されます。
関連論文リスト
- Object-Centric Multi-Task Learning for Human Instances [8.035105819936808]
オブジェクト中心学習によって複数のタスクのパラメータを最大に共有する,コンパクトなマルチタスクネットワークアーキテクチャについて検討する。
我々は、人中心クエリ(HCQ)と呼ばれる、人間のインスタンス情報を効果的に符号化する新しいクエリ設計を提案する。
実験結果から,提案したマルチタスクネットワークは,最先端タスク固有モデルに匹敵する精度を実現することがわかった。
論文 参考訳(メタデータ) (2023-03-13T01:10:50Z) - UniHCP: A Unified Model for Human-Centric Perceptions [75.38263862084641]
我々は、人間中心知覚のための統一モデル(UniHCP)を提案する。
UniHCPは、単純なエンドツーエンドで広範囲の人間中心のタスクをプレーンビジョントランスフォーマーアーキテクチャと統合する。
33の人間中心のデータセットで大規模な共同トレーニングを行うことで、UniHCPは直接評価によって強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-03-06T07:10:07Z) - MDPose: Real-Time Multi-Person Pose Estimation via Mixture Density Model [27.849059115252008]
本稿では,人間のキーポイントの結合分布をモデル化し,一段階のインスタンス認識ポーズ推定手法を提案する。
我々のMDPoseは、人間のキーポイントの高次元の関節分布を学習し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-02-17T08:29:33Z) - Body Segmentation Using Multi-task Learning [1.0832844764942349]
本稿では,3つのタスクを伴い,人間のセグメンテーション/パーシングのための新しいマルチタスクモデルを提案する。
提案された--Pose--DensePoseモデル(略してSPD)の背景にある主な考え方は、異なるが関連するタスク間で知識を共有することによって、より良いセグメンテーションモデルを学ぶことである。
モデルの性能は、LIPおよびATRデータセットの厳密な実験により分析され、最近の(最先端)マルチタスクボディセグメンテーションモデルと比較される。
論文 参考訳(メタデータ) (2022-12-13T13:06:21Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z) - End-to-end One-shot Human Parsing [91.5113227694443]
One-shot Human Parsing (OSHP) タスクでは、テスト例によって定義されたオープンなクラスに人間を解析する必要がある。
EOP-Net (End-to-end One-shot Human Parsing Network) が提案されている。
EOP-Netは、一発セグメンテーションモデルを大きなマージンで上回る。
論文 参考訳(メタデータ) (2021-05-04T01:35:50Z) - Differentiable Multi-Granularity Human Representation Learning for
Instance-Aware Human Semantic Parsing [131.97475877877608]
カテゴリーレベルの人間のセマンティックセグメンテーションとマルチパーソンポーズ推定を共同およびエンドツーエンドで学習するために,新たなボトムアップ方式を提案する。
さまざまな人間の粒度にわたって構造情報を利用する、コンパクトで効率的で強力なフレームワークです。
3つのインスタンス認識型ヒューマンデータセットの実験は、我々のモデルがより効率的な推論で他のボトムアップの代替案よりも優れていることを示している。
論文 参考訳(メタデータ) (2021-03-08T06:55:00Z) - Model-agnostic Fits for Understanding Information Seeking Patterns in
Humans [0.0]
不確実な意思決定タスクでは、人間はそのタスクに関連する情報を探し、統合し、行動する際、特徴的なバイアスを示す。
ここでは,これらのバイアスを総合的に測定・分類した,大規模に収集した先行設計実験のデータを再検討した。
これらのバイアスを集約的に再現するディープラーニングモデルを設計し、個々の行動の変化を捉えます。
論文 参考訳(メタデータ) (2020-12-09T04:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。