論文の概要: PromptPose: Language Prompt Helps Animal Pose Estimation
- arxiv url: http://arxiv.org/abs/2206.11752v1
- Date: Thu, 23 Jun 2022 14:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 13:36:42.978142
- Title: PromptPose: Language Prompt Helps Animal Pose Estimation
- Title(参考訳): PromptPose: 言語プロンプトは動物のポス推定に役立つ
- Authors: Xu Zhang, Wen Wang, Zhe Chen, Jing Zhang, Dacheng Tao
- Abstract要約: 本研究では,動物のポーズをよりよく理解するために,言語モデルを適用した新しいPromptPoseフレームワークを提案する。
PromptPoseは、教師付き設定と少数ショット設定の両方で優れた性能を達成し、代表手法よりも大きなマージンで優れることを示す。
- 参考スコア(独自算出の注目度): 75.74192630878679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, animal pose estimation is attracting increasing interest from the
academia (e.g., wildlife and conservation biology) focusing on animal behavior
understanding. However, currently animal pose estimation suffers from small
datasets and large data variances, making it difficult to obtain robust
performance. To tackle this problem, we propose that the rich knowledge about
relations between pose-related semantics learned by language models can be
utilized to improve the animal pose estimation. Therefore, in this study, we
introduce a novel PromptPose framework to effectively apply language models for
better understanding the animal poses based on prompt training. In PromptPose,
we propose that adapting the language knowledge to the visual animal poses is
key to achieve effective animal pose estimation. To this end, we first
introduce textual prompts to build connections between textual semantic
descriptions and supporting animal keypoint features. Moreover, we further
devise a pixel-level contrastive loss to build dense connections between
textual descriptions and local image features, as well as a semantic-level
contrastive loss to bridge the gap between global contrasts in language-image
cross-modal pre-training and local contrasts in dense prediction. In practice,
the PromptPose has shown great benefits for improving animal pose estimation.
By conducting extensive experiments, we show that our PromptPose achieves
superior performance under both supervised and few-shot settings, outperforming
representative methods by a large margin. The source code and models will be
made publicly available.
- Abstract(参考訳): 近年,動物行動の理解に焦点をあてた学界(野生生物・保全生物学など)から,動物のポーズ推定への関心が高まっている。
しかし、現在の動物のポーズ推定は、小さなデータセットと大きなデータ分散に苦しむため、堅牢なパフォーマンスを得るのが困難である。
この問題に対処するために,言語モデルによって学習されたポーズ関連セマンティクスの関係に関する豊富な知識を利用して,動物のポーズ推定を改善することを提案する。
そこで本研究では,動物のポーズをよりよく理解するために,言語モデルを効果的に適用するための新しいPromptPoseフレームワークを提案する。
そこで本研究では,視覚動物のポーズに対する言語知識の適応が効果的なポーズ推定の鍵であることを示す。
そこで本研究ではまず,テキスト意味記述と動物キーポイント機能との接続を構築するためのテキストプロンプトを導入する。
さらに,テキスト記述と局所画像特徴の密接な関係を構築するための画素レベルのコントラスト損失や,言語画像のクロスモーダル事前学習における大域的コントラストと密接な予測における局所的コントラストとのギャップを埋める意味レベルのコントラスト損失も考案する。
実際には、PromptPoseは動物のポーズ推定を改善する大きな利点を示している。
広範に実験を行った結果,PromptPoseは教師付き設定と少数ショット設定の両方で優れた性能を達成し,代表手法よりも大きなマージンで優れることがわかった。
ソースコードとモデルは一般公開される予定だ。
関連論文リスト
- CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - UniAP: Towards Universal Animal Perception in Vision via Few-shot
Learning [24.157933537030086]
様々な視覚的タスクにおいて種間認識を可能にする新しいユニバーサル・アニマル・パーセプション・モデルであるUniAPを紹介した。
異なる動物やタスク間で共有される視覚的特徴を活かすことで、UniAPは、よく研究された種から限られたラベル付きデータや未知の種への知識の伝達を可能にしている。
論文 参考訳(メタデータ) (2023-08-19T09:13:46Z) - LAMP: Leveraging Language Prompts for Multi-person Pose Estimation [8.983326069321981]
LAMP(Language Assisted Multi-person Pose Estimation)と呼ばれる新しいプロンプトベースのポーズ推論手法を提案する。
十分に訓練された言語モデル(CLIP)によって生成されたテキスト表現を利用することで、LAMPはインスタンスと関節レベルにおけるポーズの理解を容易にすることができる。
本稿では,言語指導型学習が単一段階多人数ポーズ推定の性能を向上させることを示す。
論文 参考訳(メタデータ) (2023-07-21T23:00:43Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - A Transformer-Based Contrastive Learning Approach for Few-Shot Sign
Language Recognition [0.0]
本稿では,ボディキー点列からリッチな表現を学習するContrastive Transformerベースのモデルを提案する。
実験により、モデルは十分に一般化でき、トレーニングプロセスで見られない手話のクラスに対して、競争的な結果を得ることができた。
論文 参考訳(メタデータ) (2022-04-05T11:42:55Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Ontology-guided Semantic Composition for Zero-Shot Learning [36.84707487983917]
本稿では,Webオントロジー言語(OWL)オントロジーを用いて,クラスラベルの合成と表現のセマンティクスをモデル化する。
この効果は、動物画像分類と視覚的質問応答に関するいくつかの実験によって検証されている。
論文 参考訳(メタデータ) (2020-06-30T15:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。