論文の概要: UniPose: Detecting Any Keypoints
- arxiv url: http://arxiv.org/abs/2310.08530v1
- Date: Thu, 12 Oct 2023 17:22:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 08:35:14.563663
- Title: UniPose: Detecting Any Keypoints
- Title(参考訳): UniPose: キーポイントの検出
- Authors: Jie Yang, Ailing Zeng, Ruimao Zhang, Lei Zhang
- Abstract要約: この研究はUniPoseと呼ばれる統一されたフレームワークを提案し、(例えば、人間や動物)堅固で柔らかい物体のキーポイントを検出する。
キーポイント(Keypoint)は、どんなオブジェクト、特に明瞭なオブジェクトの、構造を意識した、ピクセルレベルの、コンパクトな表現である。
実験結果から,UniPoseは画像スタイル,カテゴリ,ポーズにまたがって,より微細な局所化と一般化能力を有することが明らかとなった。
- 参考スコア(独自算出の注目度): 30.88831134959203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work proposes a unified framework called UniPose to detect keypoints of
any articulated (e.g., human and animal), rigid, and soft objects via visual or
textual prompts for fine-grained vision understanding and manipulation.
Keypoint is a structure-aware, pixel-level, and compact representation of any
object, especially articulated objects. Existing fine-grained promptable tasks
mainly focus on object instance detection and segmentation but often fail to
identify fine-grained granularity and structured information of image and
instance, such as eyes, leg, paw, etc. Meanwhile, prompt-based keypoint
detection is still under-explored. To bridge the gap, we make the first attempt
to develop an end-to-end prompt-based keypoint detection framework called
UniPose to detect keypoints of any objects. As keypoint detection tasks are
unified in this framework, we can leverage 13 keypoint detection datasets with
338 keypoints across 1,237 categories over 400K instances to train a generic
keypoint detection model. UniPose can effectively align text-to-keypoint and
image-to-keypoint due to the mutual enhancement of textual and visual prompts
based on the cross-modality contrastive learning optimization objectives. Our
experimental results show that UniPose has strong fine-grained localization and
generalization abilities across image styles, categories, and poses. Based on
UniPose as a generalist keypoint detector, we hope it could serve fine-grained
visual perception, understanding, and generation.
- Abstract(参考訳): この研究は、視覚理解と操作のための視覚的またはテキスト的プロンプトを通じて、任意の節点(例えば人間と動物)、剛体、ソフトオブジェクトのキーポイントを検出するためのuniposeと呼ばれる統一フレームワークを提案している。
keypointは、構造認識、ピクセルレベル、および任意のオブジェクト、特にarticulated objectのコンパクトな表現である。
既存のきめ細かいプロンプト可能なタスクは、主にオブジェクトのインスタンスの検出とセグメンテーションにフォーカスするが、目、足、足、足など、画像とインスタンスの詳細な粒度と構造化された情報を識別できないことが多い。
一方、プロンプトベースのキーポイント検出はまだ未探索である。
このギャップを埋めるために、UniPoseと呼ばれるエンドツーエンドのプロンプトベースのキーポイント検出フレームワークを開発し、任意のオブジェクトのキーポイントを検出する。
このフレームワークでキーポイント検出タスクが統一されると、汎用的なキーポイント検出モデルをトレーニングするために、1,237のカテゴリにまたがる338のキーポイントを含む13のキーポイント検出データセットを活用できる。
uniposeは、クロスモダリティコントラスト学習最適化目標に基づくテキストプロンプトとビジュアルプロンプトの相互強化により、テキスト対キーポイントと画像対キーポイントを効果的に調整することができる。
実験結果から,UniPoseは画像スタイル,カテゴリ,ポーズにまたがって,より微細な局所化と一般化能力を有することが示された。
汎用的なキーポイント検出器としてUniPoseをベースとして、きめ細かい視覚認識、理解、生成に役立てることを願っている。
関連論文リスト
- Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [77.97246496316515]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - AnyOKP: One-Shot and Instance-Aware Object Keypoint Extraction with
Pretrained ViT [28.050252998288478]
フレキシブルなオブジェクト中心の視覚知覚を実現するために,一発のインスタンス認識オブジェクトキーポイント(OKP)抽出手法であるAnyOKPを提案する。
一般化可能かつ伝達可能な特徴抽出のために、市販のペストレート・ビジョン・トランスフォーマー(ViT)を配置する。
AnyOKPは、ロボットアーム、移動ロボット、手術ロボットのカメラで収集された実際の物体画像に基づいて評価される。
論文 参考訳(メタデータ) (2023-09-15T04:05:01Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object
Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。
そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。
実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文 参考訳(メタデータ) (2022-01-06T08:54:47Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Weakly Supervised Keypoint Discovery [27.750244813890262]
画像レベルの監視を用いた2次元画像からのキーポイント発見手法を提案する。
本手法は,弱い教師付き学習アプローチに動機付けられ,画像レベルの監視を利用して識別部品を識別する。
本手法は,限られた監督シナリオにおけるキーポイント推定タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-28T01:26:53Z) - End-to-End Learning of Keypoint Representations for Continuous Control
from Images [84.8536730437934]
教師なしの事前学習、デコーダ、追加の損失を必要とせずに、エンドツーエンドで効率的なキーポイント表現を学習できることが示される。
提案アーキテクチャは,ソフトアクター・クリティカルエージェントに直接座標を供給するキーポイント抽出器で構成されている。
論文 参考訳(メタデータ) (2021-06-15T09:17:06Z) - Semi-supervised Keypoint Localization [12.37129078618206]
キーポイントのヒートマップを同時に学習し、不変なキーポイント表現を半監督的に提示することを提案する。
提案手法は,ヒトおよび動物の身体ランドマークの定位に関するいくつかのベンチマークにおいて,従来の手法を著しく上回っている。
論文 参考訳(メタデータ) (2021-01-20T06:23:08Z) - Unsupervised Object Keypoint Learning using Local Spatial Predictability [10.862430265350804]
オブジェクトキーポイントに基づく表現学習のための新しいアプローチであるPermaKeyを提案する。
AtariにおけるPermaKeyの有効性を実証し、最も顕著なオブジェクト部分に対応するキーポイントを学習し、特定の視覚的障害に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2020-11-25T18:27:05Z) - CoKe: Localized Contrastive Learning for Robust Keypoint Detection [24.167397429511915]
特徴空間における3種類の距離を最適化するためにキーポイントカーネルを選択することができることを示す。
我々は、教師付きコントラスト学習を含むフレームワーク内で、この最適化プロセスを定式化する。
CoKeは、すべてのキーポイントを論理的に共同で表現するアプローチと比較して、最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T16:00:43Z) - Point-Set Anchors for Object Detection, Instance Segmentation and Pose
Estimation [85.96410825961966]
中心点から抽出された画像の特徴は、離れたキーポイントや境界ボックスの境界を予測するための限られた情報を含んでいると論じる。
推論を容易にするために,より有利な位置に配置された点集合からの回帰を行うことを提案する。
我々は、オブジェクト検出、インスタンス分割、人間のポーズ推定にPoint-Set Anchorsと呼ばれるこのフレームワークを適用した。
論文 参考訳(メタデータ) (2020-07-06T15:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。