論文の概要: VISUALCENT: Visual Human Analysis using Dynamic Centroid Representation
- arxiv url: http://arxiv.org/abs/2504.19032v1
- Date: Sat, 26 Apr 2025 21:58:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.098892
- Title: VISUALCENT: Visual Human Analysis using Dynamic Centroid Representation
- Title(参考訳): VISUALCENT:動的セントロイド表現を用いた視覚的人間解析
- Authors: Niaz Ahmad, Youngmoon Lee, Guanghui Wang,
- Abstract要約: 視覚的多面解析における汎用性とスケーラビリティの限界に対処する統合されたヒューマンポーズとインスタンスセグメンテーションフレームワークであるVISUALCENTを紹介する。
統一セグメンテーションタスクでは、明示的なキーポイントがMaskCentroidと呼ばれるダイナミックなセントロイドとして定義され、人体の動きの急速な変化や環境が著しく閉鎖されたときに、特定の人間のインスタンスに素早くピクセルをクラスタ化する。
COCOとOCHumanデータセットの実験結果は、VISUALCENTsの精度と実時間性能の利点を示し、mAPスコアの既存の手法と毎秒の実行フレームレートを上回っている。
- 参考スコア(独自算出の注目度): 8.486534291290559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce VISUALCENT, a unified human pose and instance segmentation framework to address generalizability and scalability limitations to multi person visual human analysis. VISUALCENT leverages centroid based bottom up keypoint detection paradigm and uses Keypoint Heatmap incorporating Disk Representation and KeyCentroid to identify the optimal keypoint coordinates. For the unified segmentation task, an explicit keypoint is defined as a dynamic centroid called MaskCentroid to swiftly cluster pixels to specific human instance during rapid changes in human body movement or significantly occluded environment. Experimental results on COCO and OCHuman datasets demonstrate VISUALCENTs accuracy and real time performance advantages, outperforming existing methods in mAP scores and execution frame rate per second. The implementation is available on the project page.
- Abstract(参考訳): 視覚的多面解析における汎用性とスケーラビリティの限界に対処する統合されたヒューマンポーズとインスタンスセグメンテーションフレームワークであるVISUALCENTを紹介する。
VISUALCENTは、Centroidベースのボトムアップキーポイント検出パラダイムを活用し、キーポイントヒートマップを使用して、最適なキーポイント座標を識別する。
統一セグメンテーションタスクでは、明示的なキーポイントがMaskCentroidと呼ばれるダイナミックなセントロイドとして定義され、人体の動きの急速な変化や環境が著しく閉鎖されたときに、特定の人間のインスタンスに素早くピクセルをクラスタ化する。
COCOとOCHumanデータセットの実験結果は、VISUALCENTsの精度と実時間性能の利点を示し、mAPスコアの既存の手法と毎秒の実行フレームレートを上回っている。
実装はプロジェクトページで確認できる。
関連論文リスト
- Robust Human Registration with Body Part Segmentation on Noisy Point Clouds [73.00876572870787]
メッシュフィッティングプロセスにボディ部分のセグメンテーションを組み込んだハイブリッドアプローチを導入する。
本手法はまず,まず各点にボディ部ラベルを割り当て,次に2ステップのSMPL-Xフィッティングを導出する。
装着された人間のメッシュは、ボディ部分のラベルを洗練し、セグメンテーションの改善につながることを実証する。
論文 参考訳(メタデータ) (2025-04-04T17:17:33Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - HOKEM: Human and Object Keypoint-based Extension Module for Human-Object
Interaction Detection [1.2183405753834557]
本稿では、従来の検出モデルの精度を向上させるために、人およびオブジェクトキーポイントベースの拡張モジュール(HOKEM)を使いやすい拡張モジュールとして提案する。
HOIデータセットであるV-COCOを用いた実験では、HOKEMが外観ベースモデルの精度を大きなマージンで向上させた。
論文 参考訳(メタデータ) (2023-06-25T14:40:26Z) - MDPose: Real-Time Multi-Person Pose Estimation via Mixture Density Model [27.849059115252008]
本稿では,人間のキーポイントの結合分布をモデル化し,一段階のインスタンス認識ポーズ推定手法を提案する。
我々のMDPoseは、人間のキーポイントの高次元の関節分布を学習し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-02-17T08:29:33Z) - 2D Human Pose Estimation with Explicit Anatomical Keypoints Structure
Constraints [15.124606575017621]
本稿では,解剖学的キーポイント構造制約を明示した新しい2次元ポーズ推定手法を提案する。
提案手法は,既存のボトムアップやトップダウンの人間のポーズ推定手法に組み込むことができる。
提案手法は,既存のボトムアップとトップダウンの人間のポーズ推定手法に対して良好に機能する。
論文 参考訳(メタデータ) (2022-12-05T11:01:43Z) - Spatiotemporal k-means [39.98633724527769]
マルチスケールクラスタを解析できるk-means (STk) と呼ばれる2つの時間クラスタリング手法を提案する。
我々は、STkMがより複雑な機械学習タスク、特にビデオにおける関心の検出と追跡の教師なし領域にどのように拡張できるかを示す。
論文 参考訳(メタデータ) (2022-11-10T04:40:31Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Group-Skeleton-Based Human Action Recognition in Complex Events [15.649778891665468]
本稿では,複合イベントにおけるグループ骨格に基づく人間行動認識手法を提案する。
本手法はまず,マルチスケール空間時間グラフ畳み込みネットワーク(MS-G3D)を用いて,複数の人物から骨格の特徴を抽出する。
HiEveデータセットの結果から,本手法は他の最先端手法と比較して優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-11-26T13:19:14Z) - GID-Net: Detecting Human-Object Interaction with Global and Instance
Dependency [67.95192190179975]
GIDブロックと呼ばれる2段階の訓練可能な推論機構を導入する。
GID-Netは、ヒューマンブランチ、オブジェクトブランチ、インタラクションブランチで構成される、人間とオブジェクトのインタラクション検出フレームワークである。
我々は,提案したGID-Netを,V-COCOとHICO-DETを含む2つの公開ベンチマーク上で既存の最先端手法と比較した。
論文 参考訳(メタデータ) (2020-03-11T11:58:43Z) - Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。
そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。
CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。
検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文 参考訳(メタデータ) (2020-02-03T02:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。