論文の概要: Pose Anything: A Graph-Based Approach for Category-Agnostic Pose
Estimation
- arxiv url: http://arxiv.org/abs/2311.17891v1
- Date: Wed, 29 Nov 2023 18:44:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 20:06:45.562870
- Title: Pose Anything: A Graph-Based Approach for Category-Agnostic Pose
Estimation
- Title(参考訳): pose anything: カテゴリー非依存なポーズ推定のためのグラフベースアプローチ
- Authors: Or Hirschorn, Shai Avidan
- Abstract要約: カテゴリに依存しないポーズ推定(CAPE)は、任意のオブジェクトカテゴリに対するキーポイントのローカライゼーションを単一のモデルで実現することを目的としている。
本稿では,新たに設計されたグラフトランスフォーマーデコーダを用いて,キーポイント間の固有幾何学的関係を利用したCAPEに対する新しいアプローチを提案する。
提案手法は, 従来の最先端技術よりもかなり優れており, 1ショットおよび5ショット設定で2.16%, 1.82%の大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 14.540314605022791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional 2D pose estimation models are limited by their category-specific
design, making them suitable only for predefined object categories. This
restriction becomes particularly challenging when dealing with novel objects
due to the lack of relevant training data.
To address this limitation, category-agnostic pose estimation (CAPE) was
introduced. CAPE aims to enable keypoint localization for arbitrary object
categories using a single model, requiring minimal support images with
annotated keypoints. This approach not only enables object pose generation
based on arbitrary keypoint definitions but also significantly reduces the
associated costs, paving the way for versatile and adaptable pose estimation
applications.
We present a novel approach to CAPE that leverages the inherent geometrical
relations between keypoints through a newly designed Graph Transformer Decoder.
By capturing and incorporating this crucial structural information, our method
enhances the accuracy of keypoint localization, marking a significant departure
from conventional CAPE techniques that treat keypoints as isolated entities.
We validate our approach on the MP-100 benchmark, a comprehensive dataset
comprising over 20,000 images spanning more than 100 categories. Our method
outperforms the prior state-of-the-art by substantial margins, achieving
remarkable improvements of 2.16% and 1.82% under 1-shot and 5-shot settings,
respectively. Furthermore, our method's end-to-end training demonstrates both
scalability and efficiency compared to previous CAPE approaches.
- Abstract(参考訳): 従来の2次元ポーズ推定モデルは、カテゴリ固有の設計によって制限され、事前定義されたオブジェクトカテゴリにのみ適合する。
この制限は、関連するトレーニングデータがないため、新しいオブジェクトを扱う際に特に困難になる。
この制限に対処するため、カテゴリーに依存しないポーズ推定(CAPE)を導入した。
capeは、任意のオブジェクトカテゴリに対して単一のモデルを使ってキーポイントのローカライズを可能にすることを目的としている。
このアプローチは任意のキーポイント定義に基づくオブジェクトポーズ生成を可能にするだけでなく、関連するコストを大幅に削減し、汎用的で適応可能なポーズ推定アプリケーションを実現する。
本稿では,新たに設計されたグラフトランスフォーマーデコーダを用いて,キーポイント間の固有幾何学的関係を利用したCAPEを提案する。
本手法は,キーポイントの局所化の精度を高め,キーポイントを独立したエンティティとして扱う従来のCAPE技術とは大きく離れていることを示す。
我々は、100以上のカテゴリにまたがる2万以上の画像からなる包括的なデータセットであるMP-100ベンチマークに対するアプローチを検証する。
提案手法は, 従来法を上回っており, 1ショット設定では2.16%, 5ショット設定では1.82%の大幅な改善を達成している。
さらに,本手法のエンドツーエンドトレーニングは,従来のcapaアプローチと比較してスケーラビリティと効率性の両方を実証する。
関連論文リスト
- CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。
投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。
ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文 参考訳(メタデータ) (2022-11-24T03:27:00Z) - Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。
異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。
また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文 参考訳(メタデータ) (2022-07-21T09:40:54Z) - CATRE: Iterative Point Clouds Alignment for Category-level Object Pose
Refinement [52.41884119329864]
カテゴリーレベルのオブジェクトポーズとサイズ精細化器 CATRE は、点雲からのポーズ推定を反復的に強化し、正確な結果が得られる。
提案手法は,REAL275,CAMERA25,LMのベンチマークを85.32Hzまで高速化する。
論文 参考訳(メタデータ) (2022-07-17T05:55:00Z) - Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。
本稿では,問題を緩和するための新鮮で直接的な知見を提案する。
提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文 参考訳(メタデータ) (2022-03-15T03:08:27Z) - Modeling the Background for Incremental and Weakly-Supervised Semantic
Segmentation [39.025848280224785]
セマンティックセグメンテーションのための新しい漸進的なクラス学習手法を提案する。
各トレーニングステップは、すべての可能なクラスのサブセットにのみアノテーションを提供するので、バックグラウンドクラスのピクセルはセマンティックシフトを示す。
本研究では,Pascal-VOC,ADE20K,Cityscapesのデータセットを広範囲に評価し,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-01-31T16:33:21Z) - Rethinking Keypoint Representations: Modeling Keypoints and Poses as
Objects for Multi-Person Human Pose Estimation [79.78017059539526]
本研究では,個々のキーポイントと空間的関連キーポイント(ポーズ)の集合を,密集した単一ステージアンカーベース検出フレームワーク内のオブジェクトとしてモデル化する,新しいヒートマップフリーなキーポイント推定手法を提案する。
実験では, KAPAOは従来手法よりもはるかに高速かつ高精度であり, 熱マップ後処理に悩まされていた。
我々の大規模モデルであるKAPAO-Lは、テスト時間拡張なしでMicrosoft COCO Keypoints検証セット上で70.6のAPを達成する。
論文 参考訳(メタデータ) (2021-11-16T15:36:44Z) - Point-Set Anchors for Object Detection, Instance Segmentation and Pose
Estimation [85.96410825961966]
中心点から抽出された画像の特徴は、離れたキーポイントや境界ボックスの境界を予測するための限られた情報を含んでいると論じる。
推論を容易にするために,より有利な位置に配置された点集合からの回帰を行うことを提案する。
我々は、オブジェクト検出、インスタンス分割、人間のポーズ推定にPoint-Set Anchorsと呼ばれるこのフレームワークを適用した。
論文 参考訳(メタデータ) (2020-07-06T15:59:56Z) - Objectness-Aware Few-Shot Semantic Segmentation [31.13009111054977]
モデル全体のキャパシティを向上し、パフォーマンスを向上させる方法を示す。
我々は、クラス非依存であり、過度に適合しがちな客観性を導入する。
注釈のないカテゴリの例が1つだけあると、実験により、mIoUに関して、我々の手法が最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-04-06T19:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。