論文の概要: Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching
- arxiv url: http://arxiv.org/abs/2310.05056v3
- Date: Mon, 11 Dec 2023 11:08:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 01:39:21.991639
- Title: Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching
- Title(参考訳): Semantic-Feature Matchingを用いたオープンボキャブラリ動物キーポイント検出
- Authors: Hao Zhang, Lumin Xu, Shenqi Lai, Wenqi Shao, Nanning Zheng, Ping Luo,
Yu Qiao, Kaipeng Zhang
- Abstract要約: Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
- 参考スコア(独自算出の注目度): 77.97246496316515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current image-based keypoint detection methods for animal (including human)
bodies and faces are generally divided into full-supervised and few-shot
class-agnostic approaches. The former typically relies on laborious and
time-consuming manual annotations, posing considerable challenges in expanding
keypoint detection to a broader range of keypoint categories and animal
species. The latter, though less dependent on extensive manual input, still
requires necessary support images with annotation for reference during testing.
To realize zero-shot keypoint detection without any prior annotation, we
introduce the Open-Vocabulary Keypoint Detection (OVKD) task, which is
innovatively designed to use text prompts for identifying arbitrary keypoints
across any species. In pursuit of this goal, we have developed a novel
framework named Open-Vocabulary Keypoint Detection with Semantic-feature
Matching (KDSM). This framework synergistically combines vision and language
models, creating an interplay between language features and local keypoint
visual features. KDSM enhances its capabilities by integrating Domain
Distribution Matrix Matching (DDMM) and other special modules, such as the
Vision-Keypoint Relational Awareness (VKRA) module, improving the framework's
generalizability and overall performance.Our comprehensive experiments
demonstrate that KDSM significantly outperforms the baseline in terms of
performance and achieves remarkable success in the OVKD task.Impressively, our
method, operating in a zero-shot fashion, still yields results comparable to
state-of-the-art few-shot species class-agnostic keypoint detection methods.We
will make the source code publicly accessible.
- Abstract(参考訳): 現在の画像に基づく動物体および顔のキーポイント検出手法は、一般的に全監督型および少数ショットのクラス非依存のアプローチに分けられる。
前者は、通常、手間と時間がかかる手動アノテーションに依存しており、キーポイント検出を幅広いキーポイントカテゴリや動物種に拡張する上で大きな課題となっている。
後者は、広範な手動入力に依存することは少ないが、テスト中に参照のためのアノテーションを備えたサポートイメージが必要である。
従来のアノテーションを使わずにゼロショットキーポイント検出を実現するために,任意のキーポイントを識別するためのテキストプロンプトを革新的に使用するOpen-Vocabulary Keypoint Detection (OVKD)タスクを導入する。
この目的を追求し,open-vocabulary keypoint detection with semantic-feature matching (kdsm) という新しいフレームワークを開発した。
このフレームワークは、視覚と言語モデルを相乗的に組み合わせ、言語特徴と局所キーポイント視覚特徴との相互作用を作成する。
KDSM enhances its capabilities by integrating Domain Distribution Matrix Matching (DDMM) and other special modules, such as the Vision-Keypoint Relational Awareness (VKRA) module, improving the framework's generalizability and overall performance.Our comprehensive experiments demonstrate that KDSM significantly outperforms the baseline in terms of performance and achieves remarkable success in the OVKD task.Impressively, our method, operating in a zero-shot fashion, still yields results comparable to state-of-the-art few-shot species class-agnostic keypoint detection methods.We will make the source code publicly accessible.
関連論文リスト
- D3Former: Jointly Learning Repeatable Dense Detectors and
Feature-enhanced Descriptors via Saliency-guided Transformer [14.056531181678467]
我々は、リピータブルなtextbfDetector と機能強化された textbfDescriptors の合同学習を必要とする textitD3Former と呼ばれるサリエンシ誘導型 Transtextbfformer を導入する。
提案手法は,常に最先端のクラウドマッチング手法より優れている。
論文 参考訳(メタデータ) (2023-12-20T12:19:17Z) - Utilizing Radiomic Feature Analysis For Automated MRI Keypoint
Detection: Enhancing Graph Applications [2.8084568003406316]
グラフニューラルネットワーク(GNN)は、特定の画像処理アプリケーションにおいて、CNNやトランスフォーマーに代わる有望な選択肢を提供する。
ひとつのアプローチは、重要なキーポイントを識別することで、イメージをノードに変換することだ。
本研究は, 画像分類, セグメンテーション, 登録に限らず, GNN アプリケーションを様々なアプリケーションに拡張する段階を定めている。
論文 参考訳(メタデータ) (2023-11-30T06:37:02Z) - KOPPA: Improving Prompt-based Continual Learning with Key-Query
Orthogonal Projection and Prototype-based One-Versus-All [26.506535205897443]
本稿では,新しいキークエリ学習戦略を導入し,マッチング効率を向上し,機能変更の課題に対処する。
提案手法は,現在の最先端手法を最大20%の差で超えた結果を達成するためのモデルである。
論文 参考訳(メタデータ) (2023-11-26T20:35:19Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Few-shot Keypoint Detection with Uncertainty Learning for Unseen Species [28.307200505494126]
本稿では,様々な種類のキーポイントを検出可能な汎用Few-shot Keypoint Detection (FSKD) パイプラインを提案する。
FSKDは主および補助的キーポイント表現学習、類似性学習、キーポイントローカライゼーションを含む。
FSKDが未確認種に対する新規キーポイント検出および(ii)FGVRおよび(iii)Semantic Alignment(SA)下流タスクに対する有効性を示した。
論文 参考訳(メタデータ) (2021-12-12T08:39:47Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - SEKD: Self-Evolving Keypoint Detection and Description [42.114065439674036]
ラベルのない自然画像から高度な局所特徴モデルを学ぶための自己教師型フレームワークを提案する。
提案手法は, ホモグラフィー推定, 相対的なポーズ推定, および動きからの構造的タスクについてベンチマークする。
トレーニングされたモデルとともに、コードを公開します。
論文 参考訳(メタデータ) (2020-06-09T06:56:50Z) - Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。
そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。
CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。
検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文 参考訳(メタデータ) (2020-02-03T02:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。