Fugu-MT 論文翻訳(概要): Pose Anything: A Graph-Based Approach for Category-Agnostic Pose Estimation

論文の概要: Pose Anything: A Graph-Based Approach for Category-Agnostic Pose Estimation

arxiv url: http://arxiv.org/abs/2311.17891v1
Date: Wed, 29 Nov 2023 18:44:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 20:06:45.562870
Title: Pose Anything: A Graph-Based Approach for Category-Agnostic Pose Estimation
Title（参考訳）: pose anything: カテゴリー非依存なポーズ推定のためのグラフベースアプローチ
Authors: Or Hirschorn, Shai Avidan
Abstract要約: カテゴリに依存しないポーズ推定(CAPE)は、任意のオブジェクトカテゴリに対するキーポイントのローカライゼーションを単一のモデルで実現することを目的としている。本稿では,新たに設計されたグラフトランスフォーマーデコーダを用いて,キーポイント間の固有幾何学的関係を利用したCAPEに対する新しいアプローチを提案する。提案手法は, 従来の最先端技術よりもかなり優れており, 1ショットおよび5ショット設定で2.16%, 1.82%の大幅な改善を実現している。
参考スコア（独自算出の注目度）: 14.540314605022791
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Traditional 2D pose estimation models are limited by their category-specific design, making them suitable only for predefined object categories. This restriction becomes particularly challenging when dealing with novel objects due to the lack of relevant training data. To address this limitation, category-agnostic pose estimation (CAPE) was introduced. CAPE aims to enable keypoint localization for arbitrary object categories using a single model, requiring minimal support images with annotated keypoints. This approach not only enables object pose generation based on arbitrary keypoint definitions but also significantly reduces the associated costs, paving the way for versatile and adaptable pose estimation applications. We present a novel approach to CAPE that leverages the inherent geometrical relations between keypoints through a newly designed Graph Transformer Decoder. By capturing and incorporating this crucial structural information, our method enhances the accuracy of keypoint localization, marking a significant departure from conventional CAPE techniques that treat keypoints as isolated entities. We validate our approach on the MP-100 benchmark, a comprehensive dataset comprising over 20,000 images spanning more than 100 categories. Our method outperforms the prior state-of-the-art by substantial margins, achieving remarkable improvements of 2.16% and 1.82% under 1-shot and 5-shot settings, respectively. Furthermore, our method's end-to-end training demonstrates both scalability and efficiency compared to previous CAPE approaches.
Abstract（参考訳）: 従来の2次元ポーズ推定モデルは、カテゴリ固有の設計によって制限され、事前定義されたオブジェクトカテゴリにのみ適合する。この制限は、関連するトレーニングデータがないため、新しいオブジェクトを扱う際に特に困難になる。この制限に対処するため、カテゴリーに依存しないポーズ推定(CAPE)を導入した。 capeは、任意のオブジェクトカテゴリに対して単一のモデルを使ってキーポイントのローカライズを可能にすることを目的としている。このアプローチは任意のキーポイント定義に基づくオブジェクトポーズ生成を可能にするだけでなく、関連するコストを大幅に削減し、汎用的で適応可能なポーズ推定アプリケーションを実現する。本稿では,新たに設計されたグラフトランスフォーマーデコーダを用いて,キーポイント間の固有幾何学的関係を利用したCAPEを提案する。本手法は,キーポイントの局所化の精度を高め,キーポイントを独立したエンティティとして扱う従来のCAPE技術とは大きく離れていることを示す。我々は、100以上のカテゴリにまたがる2万以上の画像からなる包括的なデータセットであるMP-100ベンチマークに対するアプローチを検証する。提案手法は, 従来法を上回っており, 1ショット設定では2.16%, 5ショット設定では1.82%の大幅な改善を達成している。さらに,本手法のエンドツーエンドトレーニングは,従来のcapaアプローチと比較してスケーラビリティと効率性の両方を実証する。

関連論文リスト

Learning What NOT to Count [17.581015609730017]
少ない/ゼロショットのオブジェクトカウント法は、細かなカテゴリを区別するのに苦労することが多い。そこで本研究では,新たな細粒度カテゴリを,既存の少数/ゼロショットカウントモデルにシームレスに統合する,アノテーションのない手法を提案する。提案手法では,合成擬似注釈データのみを用いて訓練した細粒度カテゴリ境界を同定するアテンション予測ネットワークを提案する。
論文参考訳（メタデータ） (2025-04-16T02:05:47Z)
Edge Weight Prediction For Category-Agnostic Pose Estimation [12.308036453869033]
Category-Agnostic Pose Estimation (CAPE) は、様々なオブジェクトカテゴリにまたがるキーポイントを1つのモデルでローカライズする。グラフのエッジ重みを予測することによって制限を克服する新しいフレームワークであるEdgeCapeを紹介する。これにより,グローバルな空間依存を捕捉するモデルの能力が向上することを示す。
論文参考訳（メタデータ） (2024-11-25T18:53:09Z)
Physically Feasible Semantic Segmentation [58.17907376475596]
最先端セマンティックセグメンテーションモデルは通常、データ駆動方式で最適化される。本手法は,空間的クラス関係を規定する明示的な物理的制約を抽出する。 PhyFeaは、使用する最先端ネットワーク毎にmIoUが大幅に向上する。
論文参考訳（メタデータ） (2024-08-26T22:39:08Z)
SCAPE: A Simple and Strong Category-Agnostic Pose Estimator [6.705257644513057]
Category-Agnostic Pose Estimation (CAPE) は、任意のカテゴリのオブジェクトにキーポイントをローカライズすることを目的としている。本稿では,グローバルな意味情報をキーポイントに注入するグローバルなキーポイント機能パーセプタと,キーポイント間のノード間相関を強化するキーポイントアテンションリファクタという2つのキーモジュールを紹介する。 SCAPEは1ショットと5ショット設定で2.2と1.3PCKで先行技術より優れ、推論速度が速く、モデルキャパシティも軽い。
論文参考訳（メタデータ） (2024-07-18T13:02:57Z)
CapeX: Category-Agnostic Pose Estimation from Textual Point Explanation [10.951186766576173]
カテゴリーに依存しないポーズ推定(CAPE)は、多様な対象カテゴリに対するキーポイントのローカライゼーションを促進することを目的としている。本研究は,サポート画像の代わりにテキストベースのアプローチを採用することで,従来のCAPE手法から逸脱する。我々は、100以上のカテゴリと18,000のイメージにまたがる包括的なデータセットであるMP-100ベンチマークを用いて、新しいアプローチを検証する。
論文参考訳（メタデータ） (2024-06-01T09:50:13Z)
ZeroReg: Zero-Shot Point Cloud Registration with Foundation Models [77.84408427496025]
最先端の3Dポイントクラウド登録方法は、トレーニングのためにラベル付き3Dデータセットに依存している。我々は2次元基礎モデルを用いて3次元対応を予測するゼロショット登録手法であるZeroRegを紹介する。
論文参考訳（メタデータ） (2023-12-05T11:33:16Z)
Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。 PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文参考訳（メタデータ） (2023-03-21T15:34:50Z)
Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文参考訳（メタデータ） (2022-07-21T09:40:54Z)
Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文参考訳（メタデータ） (2022-04-12T15:03:51Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)
Objectness-Aware Few-Shot Semantic Segmentation [31.13009111054977]
モデル全体のキャパシティを向上し、パフォーマンスを向上させる方法を示す。我々は、クラス非依存であり、過度に適合しがちな客観性を導入する。注釈のないカテゴリの例が1つだけあると、実験により、mIoUに関して、我々の手法が最先端の手法より優れていることが示されている。
論文参考訳（メタデータ） (2020-04-06T19:12:08Z)
High-Order Information Matters: Learning Relation and Topology for Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文参考訳（メタデータ） (2020-03-18T12:18:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。