論文の概要: Learning Structure-Supporting Dependencies via Keypoint Interactive Transformer for General Mammal Pose Estimation
- arxiv url: http://arxiv.org/abs/2502.18214v1
- Date: Tue, 25 Feb 2025 13:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:12.175002
- Title: Learning Structure-Supporting Dependencies via Keypoint Interactive Transformer for General Mammal Pose Estimation
- Title(参考訳): 一般乳房電位推定のためのキーポイント対話型変圧器による構造表現依存の学習
- Authors: Tianyang Xu, Jiyong Rao, Xiaoning Song, Zhenhua Feng, Xiao-Jun Wu,
- Abstract要約: 一般的な哺乳類のポーズ推定のためのインスタンスレベルの構造支援依存関係を学習するためのキーポイント・インタラクティブ・トランスフォーマー(KIT)を提案する。
最初のコンポーネントはキーポイントの特徴を抽出し,身体部分のプロンプトを生成する。
次に,空間分割を行うことなく,特徴スライスを入力トークンとして利用する対話型トランスフォーマーを提案する。
- 参考スコア(独自算出の注目度): 24.010615027857007
- License:
- Abstract: General mammal pose estimation is an important and challenging task in computer vision, which is essential for understanding mammal behaviour in real-world applications. However, existing studies are at their preliminary research stage, which focus on addressing the problem for only a few specific mammal species. In principle, from specific to general mammal pose estimation, the biggest issue is how to address the huge appearance and pose variances for different species. We argue that given appearance context, instance-level prior and the structural relation among keypoints can serve as complementary evidence. To this end, we propose a Keypoint Interactive Transformer (KIT) to learn instance-level structure-supporting dependencies for general mammal pose estimation. Specifically, our KITPose consists of two coupled components. The first component is to extract keypoint features and generate body part prompts. The features are supervised by a dedicated generalised heatmap regression loss (GHRL). Instead of introducing external visual/text prompts, we devise keypoints clustering to generate body part biases, aligning them with image context to generate corresponding instance-level prompts. Second, we propose a novel interactive transformer that takes feature slices as input tokens without performing spatial splitting. In addition, to enhance the capability of the KIT model, we design an adaptive weight strategy to address the imbalance issue among different keypoints.
- Abstract(参考訳): 一般的な哺乳類のポーズ推定はコンピュータビジョンにおいて重要かつ困難な課題であり、現実の応用において哺乳類の行動を理解するのに不可欠である。
しかし、既存の研究は予備的な研究段階にあり、いくつかの特定の哺乳動物種の問題に対処することに焦点を当てている。
原則として、特定の哺乳類から一般的な哺乳類のポーズ推定まで、最も大きな問題は、どのように巨大な外見に対処し、異なる種に対してばらつきを生じさせるかである。
出現状況, 事例レベルの先行, キーポイント間の構造的関係が相補的な証拠となりうると論じる。
そこで本研究では,一般的な哺乳類のポーズ推定のためのインスタンスレベルの構造支援依存関係を学習するためのKeypoint Interactive Transformer (KIT)を提案する。
具体的には、KITPoseは2つの結合したコンポーネントから構成される。
最初のコンポーネントはキーポイントの特徴を抽出し、ボディ部分のプロンプトを生成する。
これらの特徴は、専用の一般化された熱マップ回帰損失(GHRL)によって管理される。
外部のビジュアル/テキストプロンプトを導入する代わりに、キーポイントのクラスタリングを考案し、ボディ部分のバイアスを生成し、イメージコンテキストと整列して対応するインスタンスレベルのプロンプトを生成する。
次に,空間分割を行うことなく,特徴スライスを入力トークンとして利用する対話型トランスフォーマーを提案する。
さらに、KITモデルの能力を高めるために、異なるキーポイント間の不均衡問題に対処する適応重み戦略を設計する。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - SCAPE: A Simple and Strong Category-Agnostic Pose Estimator [6.705257644513057]
Category-Agnostic Pose Estimation (CAPE) は、任意のカテゴリのオブジェクトにキーポイントをローカライズすることを目的としている。
本稿では,グローバルな意味情報をキーポイントに注入するグローバルなキーポイント機能パーセプタと,キーポイント間のノード間相関を強化するキーポイントアテンションリファクタという2つのキーモジュールを紹介する。
SCAPEは1ショットと5ショット設定で2.2と1.3PCKで先行技術より優れ、推論速度が速く、モデルキャパシティも軽い。
論文 参考訳(メタデータ) (2024-07-18T13:02:57Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - Global Relation Modeling and Refinement for Bottom-Up Human Pose
Estimation [4.24515544235173]
ボトムアップヒトポーズ推定のための畳み込みニューラルネットワークを提案する。
我々のモデルは、地域によって異なる粒度に焦点を合わせることができる。
COCO と CrowdPose のデータセットで得られた結果は,多人数ポーズ推定の効率的なフレームワークであることを実証している。
論文 参考訳(メタデータ) (2023-03-27T02:54:08Z) - Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。
異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。
また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文 参考訳(メタデータ) (2022-07-21T09:40:54Z) - CLAMP: Prompt-based Contrastive Learning for Connecting Language and
Animal Pose [70.59906971581192]
本稿では,言語とAniMal Poseを効果的に接続するための,新しいプロンプトベースのコントラスト学習手法を提案する。
CLAMPは、ネットワークトレーニング中にテキストプロンプトを動物のキーポイントに適応させることでギャップを埋めようとしている。
実験結果から, 教師付き, 少数ショット, ゼロショット設定下での最先端性能が得られた。
論文 参考訳(メタデータ) (2022-06-23T14:51:42Z) - Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression [81.05772887221333]
従来のキーポイント検出およびグループ化フレームワークに劣る密度の高いキーポイント回帰フレームワークについて検討する。
我々は,dekr(disentangled keypoint regression)という,単純かつ効果的な手法を提案する。
提案手法はキーポイント検出法やグループ化法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-06T05:54:46Z) - TransPose: Towards Explainable Human Pose Estimation by Transformer [17.39838556906491]
我々はTransformerアーキテクチャと低レベルの畳み込みブロックに基づくTransPoseというモデルを構築した。
画像が与えられると、transformerに組み込まれた注意層はキーポイント間の長距離空間関係を捉えることができる。
実験によると、TransPoseはキーポイントの位置を正確に予測できる。
論文 参考訳(メタデータ) (2020-12-28T12:33:52Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。