論文の概要: Language-driven Open-Vocabulary Keypoint Detection for Animal Body and
Face
- arxiv url: http://arxiv.org/abs/2310.05056v2
- Date: Tue, 10 Oct 2023 11:18:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 13:07:42.380363
- Title: Language-driven Open-Vocabulary Keypoint Detection for Animal Body and
Face
- Title(参考訳): 言語駆動型オープンボカブラリーキーポイントによる動物の体と顔の検出
- Authors: Hao Zhang, Kaipeng Zhang, Lumin Xu, Shenqi Lai, Wenqi Shao, Nanning
Zheng, Ping Luo, Yu Qiao
- Abstract要約: セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出法を提案する。
視覚と言語モデルの両方を使用して、テキストと視覚の関係を利用し、キーポイント検出を実現する。
本手法は、ゼロショット方式を用いて、最先端の数発のキーポイント検出法より優れる。
- 参考スコア(独自算出の注目度): 77.97246496316514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current approaches for image-based keypoint detection on animal (including
human) body and face are limited to specific keypoints and species. We address
the limitation by proposing the Open-Vocabulary Keypoint Detection (OVKD) task.
It aims to use text prompts to localize arbitrary keypoints of any species. To
accomplish this objective, we propose Open-Vocabulary Keypoint Detection with
Semantic-feature Matching (KDSM), which utilizes both vision and language
models to harness the relationship between text and vision and thus achieve
keypoint detection through associating text prompt with relevant keypoint
features. Additionally, KDSM integrates domain distribution matrix matching and
some special designs to reinforce the relationship between language and vision,
thereby improving the model's generalizability and performance. Extensive
experiments show that our proposed components bring significant performance
improvements, and our overall method achieves impressive results in OVKD.
Remarkably, our method outperforms the state-of-the-art few-shot keypoint
detection methods using a zero-shot fashion. We will make the source code
publicly accessible.
- Abstract(参考訳): 動物(ヒトを含む)の体と顔における画像に基づくキーポイント検出への現在のアプローチは、特定のキーポイントや種に限られている。
我々は,オープン語彙キーポイント検出(OVKD)タスクを提案することで,制限に対処する。
テキストプロンプトを使用して任意のキーポイントをローカライズすることを目的としている。
この目的を達成するために、視覚モデルと言語モデルの両方を用いて、テキストと視覚の関係を利用して、関連するキーポイント特徴とテキストプロンプトを関連付けることでキーポイント検出を実現するOpen-Vocabulary Keypoint Detection with Semantic-Feature Matching (KDSM)を提案する。
さらに、KDSMはドメイン分布行列マッチングといくつかの特別な設計を統合し、言語と視覚の関係を強化し、モデルの一般化性と性能を向上させる。
大規模な実験の結果,提案手法はOVKDにおいて顕著な性能向上をもたらすことが明らかとなった。
驚くべきことに、この方法はゼロショット方式で最先端のマイ・ショット・キーポイント検出手法を上回っている。
ソースコードを公開して公開します。
関連論文リスト
- KptLLM: Unveiling the Power of Large Language Model for Keypoint Comprehension [31.283133365170052]
さまざまなタスクシナリオでキーポイントを理解することを目的としたセマンティック・キーポイントを紹介します。
また,KptLLMは,識別・検出戦略を利用する統一型マルチモーダルモデルである。
KptLLMは様々なモダリティ入力を順応的に処理し、意味内容とキーポイント位置の両方の解釈を容易にする。
論文 参考訳(メタデータ) (2024-11-04T06:42:24Z) - OpenKD: Opening Prompt Diversity for Zero- and Few-shot Keypoint Detection [35.57926269889791]
モダリティ、意味論(見当たらない対面)、言語という3つの側面から、迅速な多様性を開放する。
視覚とテキストのプロンプトをサポートするために,マルチモーダルなプロトタイプセットを利用する新しいOpenKDモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T02:58:05Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - SCAPE: A Simple and Strong Category-Agnostic Pose Estimator [6.705257644513057]
Category-Agnostic Pose Estimation (CAPE) は、任意のカテゴリのオブジェクトにキーポイントをローカライズすることを目的としている。
本稿では,グローバルな意味情報をキーポイントに注入するグローバルなキーポイント機能パーセプタと,キーポイント間のノード間相関を強化するキーポイントアテンションリファクタという2つのキーモジュールを紹介する。
SCAPEは1ショットと5ショット設定で2.2と1.3PCKで先行技術より優れ、推論速度が速く、モデルキャパシティも軽い。
論文 参考訳(メタデータ) (2024-07-18T13:02:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。
そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。
CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。
検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文 参考訳(メタデータ) (2020-02-03T02:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。