Fugu-MT 論文翻訳(概要): Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching

論文の概要: Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching

arxiv url: http://arxiv.org/abs/2310.05056v4
Date: Wed, 02 Oct 2024 05:32:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 07:44:46.889033
Title: Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching
Title（参考訳）: Semantic-Feature Matchingを用いたオープンボキャブラリ動物キーポイント検出
Authors: Hao Zhang, Lumin Xu, Shenqi Lai, Wenqi Shao, Nanning Zheng, Ping Luo, Yu Qiao, Kaipeng Zhang,
Abstract要約: Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
参考スコア（独自算出の注目度）: 74.75284453828017
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current image-based keypoint detection methods for animal (including human) bodies and faces are generally divided into full-supervised and few-shot class-agnostic approaches. The former typically relies on laborious and time-consuming manual annotations, posing considerable challenges in expanding keypoint detection to a broader range of keypoint categories and animal species. The latter, though less dependent on extensive manual input, still requires necessary support images with annotation for reference during testing. To realize zero-shot keypoint detection without any prior annotation, we introduce the Open-Vocabulary Keypoint Detection (OVKD) task, which is innovatively designed to use text prompts for identifying arbitrary keypoints across any species. In pursuit of this goal, we have developed a novel framework named Open-Vocabulary Keypoint Detection with Semantic-feature Matching (KDSM). This framework synergistically combines vision and language models, creating an interplay between language features and local keypoint visual features. KDSM enhances its capabilities by integrating Domain Distribution Matrix Matching (DDMM) and other special modules, such as the Vision-Keypoint Relational Awareness (VKRA) module, improving the framework's generalizability and overall performance.Our comprehensive experiments demonstrate that KDSM significantly outperforms the baseline in terms of performance and achieves remarkable success in the OVKD task.Impressively, our method, operating in a zero-shot fashion, still yields results comparable to state-of-the-art few-shot species class-agnostic keypoint detection methods.We will make the source code publicly accessible.
Abstract（参考訳）: 動物(人間を含む)の身体と顔の現在の画像に基づくキーポイント検出法は、一般的に、完全な教師付きと数発のクラス非依存のアプローチに分けられる。前者は通常、退屈で時間を要する手書きのアノテーションに依存しており、キーポイント検出を広範囲のキーポイントカテゴリーや動物種に拡張する上で、かなりの課題を提起している。後者は、広範囲な手入力に依存しないが、テスト中に参照のためのアノテーションを備えた必要なサポートイメージが必要である。従来のアノテーションを使わずにゼロショットキーポイント検出を実現するために,任意の種類のキーポイントを識別するためのテキストプロンプトを革新的に使用するOpen-Vocabulary Keypoint Detection (OVKD)タスクを導入する。この目的を追求するために,セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。このフレームワークは、視覚と言語モデルを相乗的に組み合わせ、言語特徴と局所キーポイント視覚特徴との相互作用を作成する。 KDSMは、Domain Distribution Matrix Matching(DDMM)や他の特別なモジュール、例えばVision-Keypoint Relational Awareness(VKRA)モジュールを統合し、フレームワークの汎用性と全体的なパフォーマンスを改善し、我々の包括的な実験により、KDSMはOVKDタスクにおいてベースラインを著しく上回っており、OVKDタスクで顕著に成功していることが示された。

関連論文リスト

KptLLM: Unveiling the Power of Large Language Model for Keypoint Comprehension [31.283133365170052]
さまざまなタスクシナリオでキーポイントを理解することを目的としたセマンティック・キーポイントを紹介します。また,KptLLMは,識別・検出戦略を利用する統一型マルチモーダルモデルである。 KptLLMは様々なモダリティ入力を順応的に処理し、意味内容とキーポイント位置の両方の解釈を容易にする。
論文参考訳（メタデータ） (2024-11-04T06:42:24Z)
OpenKD: Opening Prompt Diversity for Zero- and Few-shot Keypoint Detection [35.57926269889791]
モダリティ、意味論(見当たらない対面)、言語という3つの側面から、迅速な多様性を開放する。視覚とテキストのプロンプトをサポートするために,マルチモーダルなプロトタイプセットを利用する新しいOpenKDモデルを提案する。
論文参考訳（メタデータ） (2024-09-30T02:58:05Z)
Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文参考訳（メタデータ） (2024-08-28T17:59:05Z)
Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文参考訳（メタデータ） (2024-08-05T14:05:25Z)
SCAPE: A Simple and Strong Category-Agnostic Pose Estimator [6.705257644513057]
Category-Agnostic Pose Estimation (CAPE) は、任意のカテゴリのオブジェクトにキーポイントをローカライズすることを目的としている。本稿では,グローバルな意味情報をキーポイントに注入するグローバルなキーポイント機能パーセプタと,キーポイント間のノード間相関を強化するキーポイントアテンションリファクタという2つのキーモジュールを紹介する。 SCAPEは1ショットと5ショット設定で2.2と1.3PCKで先行技術より優れ、推論速度が速く、モデルキャパシティも軽い。
論文参考訳（メタデータ） (2024-07-18T13:02:57Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文参考訳（メタデータ） (2023-07-04T02:50:44Z)
Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。 2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文参考訳（メタデータ） (2022-07-19T03:31:13Z)
Distribution Alignment: A Unified Framework for Long-tail Visual Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文参考訳（メタデータ） (2021-03-30T14:09:53Z)
Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。 CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文参考訳（メタデータ） (2020-02-03T02:24:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。