論文の概要: Recurrent Feature Mining and Keypoint Mixup Padding for Category-Agnostic Pose Estimation
- arxiv url: http://arxiv.org/abs/2503.21140v1
- Date: Thu, 27 Mar 2025 04:09:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:46.491211
- Title: Recurrent Feature Mining and Keypoint Mixup Padding for Category-Agnostic Pose Estimation
- Title(参考訳): カテゴリーに依存しないポーズ推定のための繰り返し特徴マイニングとキーポイント混合パディング
- Authors: Junjie Chen, Weilong Chen, Yifan Zuo, Yuming Fang,
- Abstract要約: カテゴリーに依存しないポーズ推定は、任意の新規クラスに対するいくつかの注釈付きサポート画像に従って、クエリ画像上のキーポイントを見つけることを目的としている。
本稿では,FGSAの機能をサポートとクエリの両方から再検討する,新しい簡潔なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.204232825380394
- License:
- Abstract: Category-agnostic pose estimation aims to locate keypoints on query images according to a few annotated support images for arbitrary novel classes. Existing methods generally extract support features via heatmap pooling, and obtain interacted features from support and query via cross-attention. Hence, these works neglect to mine fine-grained and structure-aware (FGSA) features from both support and query images, which are crucial for pixel-level keypoint localization. To this end, we propose a novel yet concise framework, which recurrently mines FGSA features from both support and query images. Specifically, we design a FGSA mining module based on deformable attention mechanism. On the one hand, we mine fine-grained features by applying deformable attention head over multi-scale feature maps. On the other hand, we mine structure-aware features by offsetting the reference points of keypoints to their linked keypoints. By means of above module, we recurrently mine FGSA features from support and query images, and thus obtain better support features and query estimations. In addition, we propose to use mixup keypoints to pad various classes to a unified keypoint number, which could provide richer supervision than the zero padding used in existing works. We conduct extensive experiments and in-depth studies on large-scale MP-100 dataset, and outperform SOTA method dramatically (+3.2\%PCK@0.05). Code is avaiable at https://github.com/chenbys/FMMP.
- Abstract(参考訳): カテゴリーに依存しないポーズ推定は、任意の新規クラスに対するいくつかの注釈付きサポート画像に従って、クエリ画像上のキーポイントを見つけることを目的としている。
既存の方法は一般にヒートマッププーリングを介してサポート機能を抽出し、クロスアテンションを介してサポートとクエリから相互作用した機能を取得する。
したがって、これらの作業は、ピクセルレベルのキーポイントのローカライゼーションに不可欠であるサポートイメージとクエリイメージの両方から、きめ細かな構造認識(FGSA)機能をマイニングすることを無視している。
そこで本稿では,FGSA機能とFGSA機能の両方を,サポート画像とクエリ画像の両方から再検討する,新しい簡潔なフレームワークを提案する。
具体的には、変形性アテンション機構に基づくFGSAマイニングモジュールを設計する。
一方,マルチスケール特徴写像上に変形可能なアテンションヘッドを適用することにより,細粒度の特徴を抽出する。
一方、キーポイントの参照ポイントをリンクされたキーポイントにオフセットすることで、構造認識の特徴を抽出する。
上記のモジュールにより、FGSAの機能をサポートおよびクエリイメージから再抽出し、より良いサポート機能とクエリ推定を得る。
さらに,様々なクラスを統一されたキーポイント数にパッキングするために,ミックスアップキーポイントを使うことを提案する。
大規模MP-100データセットに関する広範な実験と詳細な研究を行い、SOTA法を劇的に上回った(+3.2\%PCK@0.05)。
コードはhttps://github.com/chenbys/FMMPで利用可能である。
関連論文リスト
- Hybrid Mamba for Few-Shot Segmentation [54.562050590453225]
フーショットセグメンテーション (FSS) 法では,2次複雑性に関係なく,FG (Fusion Support Foreground) をクエリ機能に導入する。
FSSのシーケンス間の依存関係をキャプチャするために、クロス(アテンションのような)Mambaを考案することを目指している。
単純なアイデアは、サポート機能をスキャンして、それを隠された状態に選択的に圧縮し、クエリ機能をシーケンシャルにスキャンする初期隠れ状態として使用する、というものだ。
論文 参考訳(メタデータ) (2024-09-29T08:51:14Z) - SCAPE: A Simple and Strong Category-Agnostic Pose Estimator [6.705257644513057]
Category-Agnostic Pose Estimation (CAPE) は、任意のカテゴリのオブジェクトにキーポイントをローカライズすることを目的としている。
本稿では,グローバルな意味情報をキーポイントに注入するグローバルなキーポイント機能パーセプタと,キーポイント間のノード間相関を強化するキーポイントアテンションリファクタという2つのキーモジュールを紹介する。
SCAPEは1ショットと5ショット設定で2.2と1.3PCKで先行技術より優れ、推論速度が速く、モデルキャパシティも軽い。
論文 参考訳(メタデータ) (2024-07-18T13:02:57Z) - A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
一般的な類似性に基づく機能アップサンプリングパイプラインが提案されている。
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
我々は,モーザイクアーティファクトを緩和する上ではシンプルだが有効であるHR特徴に対して,きめ細かな近傍選択戦略を開発する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - Meta-Point Learning and Refining for Category-Agnostic Pose Estimation [46.98479393474727]
Category-Agnostic pose Estimation (CAPE) は、キーポイントを付加したいくつかのサポートイメージが与えられた場合、任意のクラスのキーポイントを予測することを目的としている。
このような潜在的なキーポイント(メタポイント)に基づくCAPEのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-20T14:54:33Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - Self-Calibrated Cross Attention Network for Few-Shot Segmentation [65.20559109791756]
我々は、パッチベースの効率的なアテンションのために、自己校正型クロスアテンション(SCCA)ブロックを設計する。
SCCAは、同じクエリイメージからのパッチと、サポートイメージからのアライメントパッチをK&Vとしてグループ化する。
このようにして、クエリBG機能はFGをサポートするBG機能と混同され、前述の問題が軽減される。
論文 参考訳(メタデータ) (2023-08-18T04:41:50Z) - CAD: Co-Adapting Discriminative Features for Improved Few-Shot
Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。
最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。
本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T06:14:51Z) - Few-Shot Segmentation via Cycle-Consistent Transformer [74.49307213431952]
本稿では,サポートとターゲット画像間の画素ワイドな関係を利用して,数ショットのセマンティックセマンティックセグメンテーション作業を容易にすることに焦点を当てる。
本稿では, 有害なサポート機能を除去するために, 新規なサイクル一貫性アテンション機構を提案する。
提案したCyCTRは,従来の最先端手法と比較して著しく改善されている。
論文 参考訳(メタデータ) (2021-06-04T07:57:48Z) - SimPropNet: Improved Similarity Propagation for Few-shot Image
Segmentation [14.419517737536706]
最近のディープニューラルネットワークに基づくFSS法は,サポート画像の前景特徴とクエリ画像特徴との高次元的特徴類似性を生かしている。
我々は,サポート機能とクエリ機能との共有を強制するために,サポートとクエリマスクを共同で予測することを提案する。
提案手法は,PASCAL-5iデータセット上での1ショットと5ショットのセグメンテーションに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2020-04-30T17:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。