論文の概要: Pose Anything: A Graph-Based Approach for Category-Agnostic Pose
Estimation
- arxiv url: http://arxiv.org/abs/2311.17891v1
- Date: Wed, 29 Nov 2023 18:44:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 20:06:45.562870
- Title: Pose Anything: A Graph-Based Approach for Category-Agnostic Pose
Estimation
- Title(参考訳): pose anything: カテゴリー非依存なポーズ推定のためのグラフベースアプローチ
- Authors: Or Hirschorn, Shai Avidan
- Abstract要約: カテゴリに依存しないポーズ推定(CAPE)は、任意のオブジェクトカテゴリに対するキーポイントのローカライゼーションを単一のモデルで実現することを目的としている。
本稿では,新たに設計されたグラフトランスフォーマーデコーダを用いて,キーポイント間の固有幾何学的関係を利用したCAPEに対する新しいアプローチを提案する。
提案手法は, 従来の最先端技術よりもかなり優れており, 1ショットおよび5ショット設定で2.16%, 1.82%の大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 14.540314605022791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional 2D pose estimation models are limited by their category-specific
design, making them suitable only for predefined object categories. This
restriction becomes particularly challenging when dealing with novel objects
due to the lack of relevant training data.
To address this limitation, category-agnostic pose estimation (CAPE) was
introduced. CAPE aims to enable keypoint localization for arbitrary object
categories using a single model, requiring minimal support images with
annotated keypoints. This approach not only enables object pose generation
based on arbitrary keypoint definitions but also significantly reduces the
associated costs, paving the way for versatile and adaptable pose estimation
applications.
We present a novel approach to CAPE that leverages the inherent geometrical
relations between keypoints through a newly designed Graph Transformer Decoder.
By capturing and incorporating this crucial structural information, our method
enhances the accuracy of keypoint localization, marking a significant departure
from conventional CAPE techniques that treat keypoints as isolated entities.
We validate our approach on the MP-100 benchmark, a comprehensive dataset
comprising over 20,000 images spanning more than 100 categories. Our method
outperforms the prior state-of-the-art by substantial margins, achieving
remarkable improvements of 2.16% and 1.82% under 1-shot and 5-shot settings,
respectively. Furthermore, our method's end-to-end training demonstrates both
scalability and efficiency compared to previous CAPE approaches.
- Abstract(参考訳): 従来の2次元ポーズ推定モデルは、カテゴリ固有の設計によって制限され、事前定義されたオブジェクトカテゴリにのみ適合する。
この制限は、関連するトレーニングデータがないため、新しいオブジェクトを扱う際に特に困難になる。
この制限に対処するため、カテゴリーに依存しないポーズ推定(CAPE)を導入した。
capeは、任意のオブジェクトカテゴリに対して単一のモデルを使ってキーポイントのローカライズを可能にすることを目的としている。
このアプローチは任意のキーポイント定義に基づくオブジェクトポーズ生成を可能にするだけでなく、関連するコストを大幅に削減し、汎用的で適応可能なポーズ推定アプリケーションを実現する。
本稿では,新たに設計されたグラフトランスフォーマーデコーダを用いて,キーポイント間の固有幾何学的関係を利用したCAPEを提案する。
本手法は,キーポイントの局所化の精度を高め,キーポイントを独立したエンティティとして扱う従来のCAPE技術とは大きく離れていることを示す。
我々は、100以上のカテゴリにまたがる2万以上の画像からなる包括的なデータセットであるMP-100ベンチマークに対するアプローチを検証する。
提案手法は, 従来法を上回っており, 1ショット設定では2.16%, 5ショット設定では1.82%の大幅な改善を達成している。
さらに,本手法のエンドツーエンドトレーニングは,従来のcapaアプローチと比較してスケーラビリティと効率性の両方を実証する。
関連論文リスト
- Edge Weight Prediction For Category-Agnostic Pose Estimation [12.308036453869033]
Category-Agnostic Pose Estimation (CAPE) は、様々なオブジェクトカテゴリにまたがるキーポイントを1つのモデルでローカライズする。
グラフのエッジ重みを予測することによって制限を克服する新しいフレームワークであるEdgeCapeを紹介する。
これにより,グローバルな空間依存を捕捉するモデルの能力が向上することを示す。
論文 参考訳(メタデータ) (2024-11-25T18:53:09Z) - Physically Feasible Semantic Segmentation [58.17907376475596]
最先端セマンティックセグメンテーションモデルは通常、データ駆動方式で最適化される。
本手法は,空間的クラス関係を規定する明示的な物理的制約を抽出する。
PhyFeaは、使用する最先端ネットワーク毎にmIoUが大幅に向上する。
論文 参考訳(メタデータ) (2024-08-26T22:39:08Z) - SCAPE: A Simple and Strong Category-Agnostic Pose Estimator [6.705257644513057]
Category-Agnostic Pose Estimation (CAPE) は、任意のカテゴリのオブジェクトにキーポイントをローカライズすることを目的としている。
本稿では,グローバルな意味情報をキーポイントに注入するグローバルなキーポイント機能パーセプタと,キーポイント間のノード間相関を強化するキーポイントアテンションリファクタという2つのキーモジュールを紹介する。
SCAPEは1ショットと5ショット設定で2.2と1.3PCKで先行技術より優れ、推論速度が速く、モデルキャパシティも軽い。
論文 参考訳(メタデータ) (2024-07-18T13:02:57Z) - CapeX: Category-Agnostic Pose Estimation from Textual Point Explanation [10.951186766576173]
カテゴリーに依存しないポーズ推定(CAPE)は、多様な対象カテゴリに対するキーポイントのローカライゼーションを促進することを目的としている。
本研究は,サポート画像の代わりにテキストベースのアプローチを採用することで,従来のCAPE手法から逸脱する。
我々は、100以上のカテゴリと18,000のイメージにまたがる包括的なデータセットであるMP-100ベンチマークを用いて、新しいアプローチを検証する。
論文 参考訳(メタデータ) (2024-06-01T09:50:13Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。
異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。
また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文 参考訳(メタデータ) (2022-07-21T09:40:54Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Objectness-Aware Few-Shot Semantic Segmentation [31.13009111054977]
モデル全体のキャパシティを向上し、パフォーマンスを向上させる方法を示す。
我々は、クラス非依存であり、過度に適合しがちな客観性を導入する。
注釈のないカテゴリの例が1つだけあると、実験により、mIoUに関して、我々の手法が最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-04-06T19:12:08Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。