Fugu-MT 論文翻訳(概要): UniPose: Detecting Any Keypoints

論文の概要: UniPose: Detecting Any Keypoints

arxiv url: http://arxiv.org/abs/2310.08530v1
Date: Thu, 12 Oct 2023 17:22:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 08:35:14.563663
Title: UniPose: Detecting Any Keypoints
Title（参考訳）: UniPose: キーポイントの検出
Authors: Jie Yang, Ailing Zeng, Ruimao Zhang, Lei Zhang
Abstract要約: この研究はUniPoseと呼ばれる統一されたフレームワークを提案し、(例えば、人間や動物)堅固で柔らかい物体のキーポイントを検出する。キーポイント(Keypoint)は、どんなオブジェクト、特に明瞭なオブジェクトの、構造を意識した、ピクセルレベルの、コンパクトな表現である。実験結果から,UniPoseは画像スタイル,カテゴリ,ポーズにまたがって,より微細な局所化と一般化能力を有することが明らかとなった。
参考スコア（独自算出の注目度）: 30.88831134959203
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work proposes a unified framework called UniPose to detect keypoints of any articulated (e.g., human and animal), rigid, and soft objects via visual or textual prompts for fine-grained vision understanding and manipulation. Keypoint is a structure-aware, pixel-level, and compact representation of any object, especially articulated objects. Existing fine-grained promptable tasks mainly focus on object instance detection and segmentation but often fail to identify fine-grained granularity and structured information of image and instance, such as eyes, leg, paw, etc. Meanwhile, prompt-based keypoint detection is still under-explored. To bridge the gap, we make the first attempt to develop an end-to-end prompt-based keypoint detection framework called UniPose to detect keypoints of any objects. As keypoint detection tasks are unified in this framework, we can leverage 13 keypoint detection datasets with 338 keypoints across 1,237 categories over 400K instances to train a generic keypoint detection model. UniPose can effectively align text-to-keypoint and image-to-keypoint due to the mutual enhancement of textual and visual prompts based on the cross-modality contrastive learning optimization objectives. Our experimental results show that UniPose has strong fine-grained localization and generalization abilities across image styles, categories, and poses. Based on UniPose as a generalist keypoint detector, we hope it could serve fine-grained visual perception, understanding, and generation.
Abstract（参考訳）: この研究は、視覚理解と操作のための視覚的またはテキスト的プロンプトを通じて、任意の節点(例えば人間と動物)、剛体、ソフトオブジェクトのキーポイントを検出するためのuniposeと呼ばれる統一フレームワークを提案している。 keypointは、構造認識、ピクセルレベル、および任意のオブジェクト、特にarticulated objectのコンパクトな表現である。既存のきめ細かいプロンプト可能なタスクは、主にオブジェクトのインスタンスの検出とセグメンテーションにフォーカスするが、目、足、足、足など、画像とインスタンスの詳細な粒度と構造化された情報を識別できないことが多い。一方、プロンプトベースのキーポイント検出はまだ未探索である。このギャップを埋めるために、UniPoseと呼ばれるエンドツーエンドのプロンプトベースのキーポイント検出フレームワークを開発し、任意のオブジェクトのキーポイントを検出する。このフレームワークでキーポイント検出タスクが統一されると、汎用的なキーポイント検出モデルをトレーニングするために、1,237のカテゴリにまたがる338のキーポイントを含む13のキーポイント検出データセットを活用できる。 uniposeは、クロスモダリティコントラスト学習最適化目標に基づくテキストプロンプトとビジュアルプロンプトの相互強化により、テキスト対キーポイントと画像対キーポイントを効果的に調整することができる。実験結果から,UniPoseは画像スタイル,カテゴリ,ポーズにまたがって,より微細な局所化と一般化能力を有することが示された。汎用的なキーポイント検出器としてUniPoseをベースとして、きめ細かい視覚認識、理解、生成に役立てることを願っている。

関連論文リスト

KptLLM++: Towards Generic Keypoint Comprehension with Large Language Model [31.59640895434506]
キーポイントは、構造認識、ピクセルレベル、オブジェクトのコンパクトな表現として、きめ細かい画像解析、オブジェクトの検索、行動認識などのアプリケーションにおいて重要な役割を果たす。本稿では,KptLLM++を提案する。KptLLM++は,汎用的なキーポイント理解のために設計された,新しいマルチモーダルな大規模言語モデルである。さまざまなコンテキストにまたがるキーポイント検出を統一することにより、KptLLM++は、より効果的なヒューマンとAIのコラボレーションを促進する、高度なインターフェースとしての地位を確立している。
論文参考訳（メタデータ） (2025-07-15T08:52:28Z)
OpenKD: Opening Prompt Diversity for Zero- and Few-shot Keypoint Detection [35.57926269889791]
モダリティ、意味論(見当たらない対面)、言語という3つの側面から、迅速な多様性を開放する。視覚とテキストのプロンプトをサポートするために,マルチモーダルなプロトタイプセットを利用する新しいOpenKDモデルを提案する。
論文参考訳（メタデータ） (2024-09-30T02:58:05Z)
PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文参考訳（メタデータ） (2024-03-14T09:28:12Z)
Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文参考訳（メタデータ） (2023-10-08T07:42:41Z)
KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired True-Range Multilateration [28.96448680048584]
KeyPoint Positioning System (KeyPosS) は、関心点と完全な畳み込みネットワークによって予測されるアンカー点の距離を三角にして正確なランドマーク座標を導出する最初のフレームワークである。 4つのデータセットの実験では、計算オーバーヘッドが最小限であるにもかかわらず、KeyPosSは、解像度の低い設定で既存のメソッドを上回り、最先端のパフォーマンスを示している。
論文参考訳（メタデータ） (2023-05-25T19:30:21Z)
Explicit Box Detection Unifies End-to-End Multi-Person Pose Estimation [24.973118696495977]
本稿では,ED-Poseと呼ばれる多人数のPose推定のためのExplicit box Detectionを用いたエンドツーエンドフレームワークを提案する。ヒューマンレベル(グローバル)とキーポイントレベル(ローカル)情報のコンテキスト学習を統一する。 L1回帰損失の完全なエンドツーエンドフレームワークとして、ED-Poseは、同じバックボーンの下で、ヒートマップベースのトップダウンメソッドを初めて上回った。
論文参考訳（メタデータ） (2023-02-03T08:18:34Z)
Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文参考訳（メタデータ） (2022-07-21T09:40:54Z)
SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文参考訳（メタデータ） (2022-01-06T08:54:47Z)
Rethinking Keypoint Representations: Modeling Keypoints and Poses as Objects for Multi-Person Human Pose Estimation [79.78017059539526]
本研究では,個々のキーポイントと空間的関連キーポイント(ポーズ)の集合を,密集した単一ステージアンカーベース検出フレームワーク内のオブジェクトとしてモデル化する,新しいヒートマップフリーなキーポイント推定手法を提案する。実験では, KAPAOは従来手法よりもはるかに高速かつ高精度であり, 熱マップ後処理に悩まされていた。我々の大規模モデルであるKAPAO-Lは、テスト時間拡張なしでMicrosoft COCO Keypoints検証セット上で70.6のAPを達成する。
論文参考訳（メタデータ） (2021-11-16T15:36:44Z)
Weakly Supervised Keypoint Discovery [27.750244813890262]
画像レベルの監視を用いた2次元画像からのキーポイント発見手法を提案する。本手法は,弱い教師付き学習アプローチに動機付けられ,画像レベルの監視を利用して識別部品を識別する。本手法は,限られた監督シナリオにおけるキーポイント推定タスクの最先端性能を実現する。
論文参考訳（メタデータ） (2021-09-28T01:26:53Z)
DeepDarts: Modeling Keypoints as Objects for Automatic Scorekeeping in Darts using a Single Camera [75.34178733070547]
既存のマルチカメラソリューションは、スチールチップダーツの自動スコア管理に非常に高価であり、ほとんどのプレイヤーにはアクセスできない。キーポイント検出に対する新しいアプローチを提案し,任意のカメラアングルから撮影した単一の画像からダートスコアを予測する。我々は、このアイデアにまつわる深い畳み込みニューラルネットワークを開発し、ダート位置とダートボードの校正点を予測する。
論文参考訳（メタデータ） (2021-05-20T16:25:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。