論文の概要: X-Pose: Detecting Any Keypoints
- arxiv url: http://arxiv.org/abs/2310.08530v2
- Date: Wed, 17 Jul 2024 09:25:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 23:18:25.770307
- Title: X-Pose: Detecting Any Keypoints
- Title(参考訳): X-Pose: キーポイントの検出
- Authors: Jie Yang, Ailing Zeng, Ruimao Zhang, Lei Zhang,
- Abstract要約: X-Poseは画像内の複数オブジェクトのキーポイント検出のための新しいフレームワークである。
UniKPTはキーポイント検出データセットの大規模なデータセットである。
X-Poseは、最先端の非プロンプタブル、視覚的プロンプトベース、テキスト的プロンプトベースメソッドに対する顕著な改善を実現している。
- 参考スコア(独自算出の注目度): 28.274913140048003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work aims to address an advanced keypoint detection problem: how to accurately detect any keypoints in complex real-world scenarios, which involves massive, messy, and open-ended objects as well as their associated keypoints definitions. Current high-performance keypoint detectors often fail to tackle this problem due to their two-stage schemes, under-explored prompt designs, and limited training data. To bridge the gap, we propose X-Pose, a novel end-to-end framework with multi-modal (i.e., visual, textual, or their combinations) prompts to detect multi-object keypoints for any articulated (e.g., human and animal), rigid, and soft objects within a given image. Moreover, we introduce a large-scale dataset called UniKPT, which unifies 13 keypoint detection datasets with 338 keypoints across 1,237 categories over 400K instances. Training with UniKPT, X-Pose effectively aligns text-to-keypoint and image-to-keypoint due to the mutual enhancement of multi-modal prompts based on cross-modality contrastive learning. Our experimental results demonstrate that X-Pose achieves notable improvements of 27.7 AP, 6.44 PCK, and 7.0 AP compared to state-of-the-art non-promptable, visual prompt-based, and textual prompt-based methods in each respective fair setting. More importantly, the in-the-wild test demonstrates X-Pose's strong fine-grained keypoint localization and generalization abilities across image styles, object categories, and poses, paving a new path to multi-object keypoint detection in real applications. Our code and dataset are available at https://github.com/IDEA-Research/X-Pose.
- Abstract(参考訳): この研究は、複雑な現実世界のシナリオにおいて、巨大な、乱雑でオープンなオブジェクトと関連するキーポイント定義を含むキーポイントを正確に検出する方法という、先進的なキーポイント検出問題に対処することを目的としている。
現在の高性能キーポイント検出器は、2段階のスキーム、未探索のプロンプト設計、限られた訓練データのためにこの問題に対処できないことが多い。
このギャップを埋めるために、X-Poseという、マルチモーダル(視覚的、テキスト的、あるいはそれらの組み合わせ)を持つ新しいエンドツーエンドフレームワークを提案する。
さらに,UniKPTと呼ばれる大規模データセットを導入し,400Kインスタンス上で1,237のカテゴリに338のキーポイントを持つ13のキーポイント検出データセットを統合する。
UniKPTを用いた学習では,マルチモーダルプロンプトの相互強化により,テキスト・ツー・キーポイントと画像・ツー・キーポイントを効果的に調整する。
実験の結果,X-Poseは,各フェアセッティングにおける非プロンプタブル,視覚的プロンプトベース,テキスト的プロンプトベースの手法と比較して,27.7 AP,6.44 PCK,7.0 APの顕著な改善を実現していることがわかった。
さらに重要なのは、X-Poseの強力な微粒化キーポイントのローカライゼーションと画像スタイル、オブジェクトカテゴリ、ポーズの一般化能力を示し、実際のアプリケーションでキーポイントの検出を多目的にするための新しい道を開くことだ。
私たちのコードとデータセットはhttps://github.com/IDEA-Research/X-Pose.orgで公開されています。
関連論文リスト
- OpenKD: Opening Prompt Diversity for Zero- and Few-shot Keypoint Detection [35.57926269889791]
モダリティ、意味論(見当たらない対面)、言語という3つの側面から、迅速な多様性を開放する。
視覚とテキストのプロンプトをサポートするために,マルチモーダルなプロトタイプセットを利用する新しいOpenKDモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T02:58:05Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired
True-Range Multilateration [28.96448680048584]
KeyPoint Positioning System (KeyPosS) は、関心点と完全な畳み込みネットワークによって予測されるアンカー点の距離を三角にして正確なランドマーク座標を導出する最初のフレームワークである。
4つのデータセットの実験では、計算オーバーヘッドが最小限であるにもかかわらず、KeyPosSは、解像度の低い設定で既存のメソッドを上回り、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-05-25T19:30:21Z) - Explicit Box Detection Unifies End-to-End Multi-Person Pose Estimation [24.973118696495977]
本稿では,ED-Poseと呼ばれる多人数のPose推定のためのExplicit box Detectionを用いたエンドツーエンドフレームワークを提案する。
ヒューマンレベル(グローバル)とキーポイントレベル(ローカル)情報のコンテキスト学習を統一する。
L1回帰損失の完全なエンドツーエンドフレームワークとして、ED-Poseは、同じバックボーンの下で、ヒートマップベースのトップダウンメソッドを初めて上回った。
論文 参考訳(メタデータ) (2023-02-03T08:18:34Z) - Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。
異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。
また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文 参考訳(メタデータ) (2022-07-21T09:40:54Z) - SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object
Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。
そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。
実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文 参考訳(メタデータ) (2022-01-06T08:54:47Z) - Rethinking Keypoint Representations: Modeling Keypoints and Poses as
Objects for Multi-Person Human Pose Estimation [79.78017059539526]
本研究では,個々のキーポイントと空間的関連キーポイント(ポーズ)の集合を,密集した単一ステージアンカーベース検出フレームワーク内のオブジェクトとしてモデル化する,新しいヒートマップフリーなキーポイント推定手法を提案する。
実験では, KAPAOは従来手法よりもはるかに高速かつ高精度であり, 熱マップ後処理に悩まされていた。
我々の大規模モデルであるKAPAO-Lは、テスト時間拡張なしでMicrosoft COCO Keypoints検証セット上で70.6のAPを達成する。
論文 参考訳(メタデータ) (2021-11-16T15:36:44Z) - Weakly Supervised Keypoint Discovery [27.750244813890262]
画像レベルの監視を用いた2次元画像からのキーポイント発見手法を提案する。
本手法は,弱い教師付き学習アプローチに動機付けられ,画像レベルの監視を利用して識別部品を識別する。
本手法は,限られた監督シナリオにおけるキーポイント推定タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-28T01:26:53Z) - DeepDarts: Modeling Keypoints as Objects for Automatic Scorekeeping in
Darts using a Single Camera [75.34178733070547]
既存のマルチカメラソリューションは、スチールチップダーツの自動スコア管理に非常に高価であり、ほとんどのプレイヤーにはアクセスできない。
キーポイント検出に対する新しいアプローチを提案し,任意のカメラアングルから撮影した単一の画像からダートスコアを予測する。
我々は、このアイデアにまつわる深い畳み込みニューラルネットワークを開発し、ダート位置とダートボードの校正点を予測する。
論文 参考訳(メタデータ) (2021-05-20T16:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。