論文の概要: CLAMP: Prompt-based Contrastive Learning for Connecting Language and
Animal Pose
- arxiv url: http://arxiv.org/abs/2206.11752v3
- Date: Mon, 26 Jun 2023 00:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 01:06:13.339092
- Title: CLAMP: Prompt-based Contrastive Learning for Connecting Language and
Animal Pose
- Title(参考訳): CLAMP: 言語と動物をつなぐためのプロンプトベースのコントラスト学習
- Authors: Xu Zhang, Wen Wang, Zhe Chen, Yufei Xu, Jing Zhang, Dacheng Tao
- Abstract要約: 本稿では,言語とAniMal Poseを効果的に接続するための,新しいプロンプトベースのコントラスト学習手法を提案する。
CLAMPは、ネットワークトレーニング中にテキストプロンプトを動物のキーポイントに適応させることでギャップを埋めようとしている。
実験結果から, 教師付き, 少数ショット, ゼロショット設定下での最先端性能が得られた。
- 参考スコア(独自算出の注目度): 70.59906971581192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Animal pose estimation is challenging for existing image-based methods
because of limited training data and large intra- and inter-species variances.
Motivated by the progress of visual-language research, we propose that
pre-trained language models (e.g., CLIP) can facilitate animal pose estimation
by providing rich prior knowledge for describing animal keypoints in text.
However, we found that building effective connections between pre-trained
language models and visual animal keypoints is non-trivial since the gap
between text-based descriptions and keypoint-based visual features about animal
pose can be significant. To address this issue, we introduce a novel
prompt-based Contrastive learning scheme for connecting Language and AniMal
Pose (CLAMP) effectively. The CLAMP attempts to bridge the gap by adapting the
text prompts to the animal keypoints during network training. The adaptation is
decomposed into spatial-aware and feature-aware processes, and two novel
contrastive losses are devised correspondingly. In practice, the CLAMP enables
the first cross-modal animal pose estimation paradigm. Experimental results
show that our method achieves state-of-the-art performance under the
supervised, few-shot, and zero-shot settings, outperforming image-based methods
by a large margin.
- Abstract(参考訳): 既存の画像ベース手法では、トレーニングデータや種内および種間に大きなばらつきがあるため、動物のポーズ推定は困難である。
視覚言語研究の進展により,事前学習した言語モデル(例えばCLIP)は,テキストで動物のキーポイントを記述するための豊富な事前知識を提供することで,動物のポーズ推定を容易にすることが示唆された。
しかし, 事前学習した言語モデルと視覚動物キーポイントの効果的な接続を構築することは, テキストベース記述とキーポイントに基づく動物ポーズの視覚的特徴とのギャップが大きいため, 容易ではないことがわかった。
本稿では,言語とAniMal Pose(CLAMP)を効果的に接続するための,新しいプロンプトベースのコントラスト学習手法を提案する。
CLAMPは、ネットワークトレーニング中に動物のキーポイントにテキストプロンプトを適用することでギャップを埋めようとしている。
適応は空間認識および特徴認識のプロセスに分解され、2つの新しい対照的な損失が対応するように考案される。
実際には、CLAMPは最初のクロスモーダル動物ポーズ推定パラダイムを可能にする。
実験の結果, 教師付き, 少数ショット, ゼロショットの設定では, 画像ベースの手法を高いマージンで上回り, 最先端の性能が得られることがわかった。
関連論文リスト
- CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - UniAP: Towards Universal Animal Perception in Vision via Few-shot
Learning [24.157933537030086]
様々な視覚的タスクにおいて種間認識を可能にする新しいユニバーサル・アニマル・パーセプション・モデルであるUniAPを紹介した。
異なる動物やタスク間で共有される視覚的特徴を活かすことで、UniAPは、よく研究された種から限られたラベル付きデータや未知の種への知識の伝達を可能にしている。
論文 参考訳(メタデータ) (2023-08-19T09:13:46Z) - LAMP: Leveraging Language Prompts for Multi-person Pose Estimation [8.983326069321981]
LAMP(Language Assisted Multi-person Pose Estimation)と呼ばれる新しいプロンプトベースのポーズ推論手法を提案する。
十分に訓練された言語モデル(CLIP)によって生成されたテキスト表現を利用することで、LAMPはインスタンスと関節レベルにおけるポーズの理解を容易にすることができる。
本稿では,言語指導型学習が単一段階多人数ポーズ推定の性能を向上させることを示す。
論文 参考訳(メタデータ) (2023-07-21T23:00:43Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - A Transformer-Based Contrastive Learning Approach for Few-Shot Sign
Language Recognition [0.0]
本稿では,ボディキー点列からリッチな表現を学習するContrastive Transformerベースのモデルを提案する。
実験により、モデルは十分に一般化でき、トレーニングプロセスで見られない手話のクラスに対して、競争的な結果を得ることができた。
論文 参考訳(メタデータ) (2022-04-05T11:42:55Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Ontology-guided Semantic Composition for Zero-Shot Learning [36.84707487983917]
本稿では,Webオントロジー言語(OWL)オントロジーを用いて,クラスラベルの合成と表現のセマンティクスをモデル化する。
この効果は、動物画像分類と視覚的質問応答に関するいくつかの実験によって検証されている。
論文 参考訳(メタデータ) (2020-06-30T15:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。