Fugu-MT 論文翻訳(概要): SCAPE: A Simple and Strong Category-Agnostic Pose Estimator

論文の概要: SCAPE: A Simple and Strong Category-Agnostic Pose Estimator

arxiv url: http://arxiv.org/abs/2407.13483v1
Date: Thu, 18 Jul 2024 13:02:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 15:20:54.703275
Title: SCAPE: A Simple and Strong Category-Agnostic Pose Estimator
Title（参考訳）: SCAPE: シンプルで強力なカテゴリ非依存型ポース推定器
Authors: Yujia Liang, Zixuan Ye, Wenze Liu, Hao Lu,
Abstract要約: Category-Agnostic Pose Estimation (CAPE) は、任意のカテゴリのオブジェクトにキーポイントをローカライズすることを目的としている。本稿では,グローバルな意味情報をキーポイントに注入するグローバルなキーポイント機能パーセプタと,キーポイント間のノード間相関を強化するキーポイントアテンションリファクタという2つのキーモジュールを紹介する。 SCAPEは1ショットと5ショット設定で2.2と1.3PCKで先行技術より優れ、推論速度が速く、モデルキャパシティも軽い。
参考スコア（独自算出の注目度）: 6.705257644513057
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Category-Agnostic Pose Estimation (CAPE) aims to localize keypoints on an object of any category given few exemplars in an in-context manner. Prior arts involve sophisticated designs, e.g., sundry modules for similarity calculation and a two-stage framework, or takes in extra heatmap generation and supervision. We notice that CAPE is essentially a task about feature matching, which can be solved within the attention process. Therefore we first streamline the architecture into a simple baseline consisting of several pure self-attention layers and an MLP regression head -- this simplification means that one only needs to consider the attention quality to boost the performance of CAPE. Towards an effective attention process for CAPE, we further introduce two key modules: i) a global keypoint feature perceptor to inject global semantic information into support keypoints, and ii) a keypoint attention refiner to enhance inter-node correlation between keypoints. They jointly form a Simple and strong Category-Agnostic Pose Estimator (SCAPE). Experimental results show that SCAPE outperforms prior arts by 2.2 and 1.3 PCK under 1-shot and 5-shot settings with faster inference speed and lighter model capacity, excelling in both accuracy and efficiency. Code and models are available at https://github.com/tiny-smart/SCAPE
Abstract（参考訳）: Category-Agnostic Pose Estimation (CAPE) は、任意のカテゴリのオブジェクトにキーポイントをローカライズすることを目的としている。先行技術には、類似性計算のための日没モジュールや、2段階のフレームワーク、あるいは追加のヒートマップ生成と監視といった高度な設計が含まれている。 CAPEは本質的に特徴マッチングのタスクであり、注意プロセス内で解決できることに気付きます。したがって、まずアーキテクチャをいくつかの純粋な自己アテンション層とMPP回帰ヘッドからなる単純なベースラインに合理化します -- この単純化は、CAPEの性能を高めるために注意の質を考慮する必要があることを意味します。 CAPEの効果的な注意プロセスに向けて、我々はさらに2つの重要なモジュールを紹介します。一グローバルな意味情報を支援キーポイントに注入するグローバルなキーポイント特徴受入者二キーポイント間のノード間相関を高めるためのキーポイント注意改善装置彼らは、シンプルで強力なカテゴリー非依存のPose Estimator(SCAPE)を共同で形成する。実験の結果,SCAPEは1ショットおよび5ショット設定で2.2と1.3PCKで先行技術より優れ,推論速度と軽量モデルキャパシティが向上し,精度と効率に優れていた。コードとモデルはhttps://github.com/tiny-smart/SCAPEで公開されている。

関連論文リスト

Explicit Multi-head Attention for Inter-head Interaction in Large Language Models [70.96854312026319]
マルチヘッド明示的注意(Multi-head Explicit Attention、MEA)は、頭間相互作用を明示的にモデル化した、単純で効果的な注意法である。 MEAは事前トレーニングにおいて強い堅牢性を示し、より高速な収束につながる学習率を使用することを可能にします。これにより、KVキャッシュメモリ使用率を50%削減できる実用的なキー値キャッシュ圧縮戦略が実現される。
論文参考訳（メタデータ） (2026-01-27T13:45:03Z)
CAPE: A CLIP-Aware Pointing Ensemble of Complementary Heatmap Cues for Embodied Reference Understanding [56.30142869506262]
身体的参照理解(Embodied Reference Understanding)は、シーンの人物が指し示すジェスチャーと言語の両方を通して参照しているオブジェクトを予測する。本稿では,2重モデルフレームワークを提案し,一方のモデルが頭指先方向から学習し,他方のモデルが手指先方向から学習する。我々は、ベンチマークYouRefItデータセットの広範な実験と分析を通じてアプローチを検証し、0.25IoU閾値で約4mAPの改善を実現した。
論文参考訳（メタデータ） (2025-07-29T15:00:21Z)
Meta-Point Learning and Refining for Category-Agnostic Pose Estimation [46.98479393474727]
Category-Agnostic pose Estimation (CAPE) は、キーポイントを付加したいくつかのサポートイメージが与えられた場合、任意のクラスのキーポイントを予測することを目的としている。このような潜在的なキーポイント(メタポイント)に基づくCAPEのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-20T14:54:33Z)
Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文参考訳（メタデータ） (2024-03-01T15:14:47Z)
Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文参考訳（メタデータ） (2023-10-08T07:42:41Z)
Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文参考訳（メタデータ） (2023-07-04T02:50:44Z)
Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文参考訳（メタデータ） (2022-07-21T09:40:54Z)
Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文参考訳（メタデータ） (2022-07-01T03:36:49Z)
CAD: Co-Adapting Discriminative Features for Improved Few-Shot Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文参考訳（メタデータ） (2022-03-25T06:14:51Z)
Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。本稿では,問題を緩和するための新鮮で直接的な知見を提案する。提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文参考訳（メタデータ） (2022-03-15T03:08:27Z)
Rethinking Keypoint Representations: Modeling Keypoints and Poses as Objects for Multi-Person Human Pose Estimation [79.78017059539526]
本研究では,個々のキーポイントと空間的関連キーポイント(ポーズ)の集合を,密集した単一ステージアンカーベース検出フレームワーク内のオブジェクトとしてモデル化する,新しいヒートマップフリーなキーポイント推定手法を提案する。実験では, KAPAOは従来手法よりもはるかに高速かつ高精度であり, 熱マップ後処理に悩まされていた。我々の大規模モデルであるKAPAO-Lは、テスト時間拡張なしでMicrosoft COCO Keypoints検証セット上で70.6のAPを達成する。
論文参考訳（メタデータ） (2021-11-16T15:36:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。