論文の概要: Language-driven Open-Vocabulary Keypoint Detection for Animal Body and
Face
- arxiv url: http://arxiv.org/abs/2310.05056v1
- Date: Tue, 10 Oct 2023 11:18:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 13:07:25.454107
- Title: Language-driven Open-Vocabulary Keypoint Detection for Animal Body and
Face
- Title(参考訳): 言語駆動型オープンボカブラリーキーポイントによる動物の体と顔の検出
- Authors: Hao Zhang, Kaipeng Zhang, Lumin Xu, Shenqi Lai, Wenqi Shao, Nanning
Zheng, Ping Luo, Yu Qiao
- Abstract要約: セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出法を提案する。
視覚と言語モデルの両方を使用して、テキストと視覚の関係を利用し、キーポイント検出を実現する。
本手法は、ゼロショット方式を用いて、最先端の数発のキーポイント検出法より優れる。
- 参考スコア(独自算出の注目度): 77.97246496316514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current approaches for image-based keypoint detection on animal (including
human) body and face are limited to specific keypoints and species. We address
the limitation by proposing the Open-Vocabulary Keypoint Detection (OVKD) task.
It aims to use text prompts to localize arbitrary keypoints of any species. To
accomplish this objective, we propose Open-Vocabulary Keypoint Detection with
Semantic-feature Matching (KDSM), which utilizes both vision and language
models to harness the relationship between text and vision and thus achieve
keypoint detection through associating text prompt with relevant keypoint
features. Additionally, KDSM integrates domain distribution matrix matching and
some special designs to reinforce the relationship between language and vision,
thereby improving the model's generalizability and performance. Extensive
experiments show that our proposed components bring significant performance
improvements, and our overall method achieves impressive results in OVKD.
Remarkably, our method outperforms the state-of-the-art few-shot keypoint
detection methods using a zero-shot fashion. We will make the source code
publicly accessible.
- Abstract(参考訳): 動物(ヒトを含む)の体と顔における画像に基づくキーポイント検出への現在のアプローチは、特定のキーポイントや種に限られている。
我々は,オープン語彙キーポイント検出(OVKD)タスクを提案することで,制限に対処する。
テキストプロンプトを使用して任意のキーポイントをローカライズすることを目的としている。
この目的を達成するために、視覚モデルと言語モデルの両方を用いて、テキストと視覚の関係を利用して、関連するキーポイント特徴とテキストプロンプトを関連付けることでキーポイント検出を実現するOpen-Vocabulary Keypoint Detection with Semantic-Feature Matching (KDSM)を提案する。
さらに、KDSMはドメイン分布行列マッチングといくつかの特別な設計を統合し、言語と視覚の関係を強化し、モデルの一般化性と性能を向上させる。
大規模な実験の結果,提案手法はOVKDにおいて顕著な性能向上をもたらすことが明らかとなった。
驚くべきことに、この方法はゼロショット方式で最先端のマイ・ショット・キーポイント検出手法を上回っている。
ソースコードを公開して公開します。
関連論文リスト
- Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。
本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。
我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文 参考訳(メタデータ) (2024-05-09T10:58:37Z) - Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection [9.788417605537965]
条件付き多レベルデコードと細粒度セマンティックエンハンスメントを備えた新しいエンドツーエンドオープン語彙HOI検出フレームワークを提案する。
提案手法は,開語彙HOI検出の最先端化を実現する。
論文 参考訳(メタデータ) (2024-04-09T10:27:22Z) - Meta-Point Learning and Refining for Category-Agnostic Pose Estimation [46.98479393474727]
Category-Agnostic pose Estimation (CAPE) は、キーポイントを付加したいくつかのサポートイメージが与えられた場合、任意のクラスのキーポイントを予測することを目的としている。
このような潜在的なキーポイント(メタポイント)に基づくCAPEのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-20T14:54:33Z) - KOPPA: Improving Prompt-based Continual Learning with Key-Query
Orthogonal Projection and Prototype-based One-Versus-All [26.506535205897443]
本稿では,新しいキークエリ学習戦略を導入し,マッチング効率を向上し,機能変更の課題に対処する。
提案手法は,現在の最先端手法を最大20%の差で超えた結果を達成するためのモデルである。
論文 参考訳(メタデータ) (2023-11-26T20:35:19Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Few-shot Keypoint Detection with Uncertainty Learning for Unseen Species [28.307200505494126]
本稿では,様々な種類のキーポイントを検出可能な汎用Few-shot Keypoint Detection (FSKD) パイプラインを提案する。
FSKDは主および補助的キーポイント表現学習、類似性学習、キーポイントローカライゼーションを含む。
FSKDが未確認種に対する新規キーポイント検出および(ii)FGVRおよび(iii)Semantic Alignment(SA)下流タスクに対する有効性を示した。
論文 参考訳(メタデータ) (2021-12-12T08:39:47Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。
そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。
CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。
検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文 参考訳(メタデータ) (2020-02-03T02:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。