論文の概要: CapeX: Category-Agnostic Pose Estimation from Textual Point Explanation
- arxiv url: http://arxiv.org/abs/2406.00384v1
- Date: Sat, 1 Jun 2024 09:50:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 07:24:46.684295
- Title: CapeX: Category-Agnostic Pose Estimation from Textual Point Explanation
- Title(参考訳): CapeX: テキストポイント記述によるカテゴリー非依存ポス推定
- Authors: Matan Rusanovsky, Or Hirschorn, Shai Avidan,
- Abstract要約: カテゴリーに依存しないポーズ推定(CAPE)は、多様な対象カテゴリに対するキーポイントのローカライゼーションを促進することを目的としている。
本研究は,サポート画像の代わりにテキストベースのアプローチを採用することで,従来のCAPE手法から逸脱する。
我々は、100以上のカテゴリと18,000のイメージにまたがる包括的なデータセットであるMP-100ベンチマークを用いて、新しいアプローチを検証する。
- 参考スコア(独自算出の注目度): 10.951186766576173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional 2D pose estimation models are constrained by their design to specific object categories. This limits their applicability to predefined objects. To overcome these limitations, category-agnostic pose estimation (CAPE) emerged as a solution. CAPE aims to facilitate keypoint localization for diverse object categories using a unified model, which can generalize from minimal annotated support images. Recent CAPE works have produced object poses based on arbitrary keypoint definitions annotated on a user-provided support image. Our work departs from conventional CAPE methods, which require a support image, by adopting a text-based approach instead of the support image. Specifically, we use a pose-graph, where nodes represent keypoints that are described with text. This representation takes advantage of the abstraction of text descriptions and the structure imposed by the graph. Our approach effectively breaks symmetry, preserves structure, and improves occlusion handling. We validate our novel approach using the MP-100 benchmark, a comprehensive dataset spanning over 100 categories and 18,000 images. Under a 1-shot setting, our solution achieves a notable performance boost of 1.07\%, establishing a new state-of-the-art for CAPE. Additionally, we enrich the dataset by providing text description annotations, further enhancing its utility for future research.
- Abstract(参考訳): 従来の2次元ポーズ推定モデルは、その設計によって特定の対象カテゴリに制約される。
これにより、事前定義されたオブジェクトへの適用が制限される。
これらの制約を克服するため、カテゴリーに依存しないポーズ推定(CAPE)が解として現れた。
CAPEは、最小限の注釈付きサポート画像から一般化可能な統一モデルを用いて、多様なオブジェクトカテゴリのキーポイントローカライズを容易にすることを目的としている。
最近のCAPE作業では、ユーザが提供するサポートイメージに注釈を付けた任意のキーポイント定義に基づいてオブジェクトポーズが作成されている。
本研究は,サポート画像の代わりにテキストベースのアプローチを採用することで,サポート画像を必要とする従来のCAPE手法から逸脱する。
具体的には、ノードがテキストで記述されたキーポイントを表すポーズグラフを使用する。
この表現は、テキスト記述の抽象化とグラフによって課される構造を利用する。
提案手法は, 対称性を効果的に破り, 構造を保ち, 閉塞処理を改善する。
我々は、100以上のカテゴリと18,000のイメージにまたがる包括的なデータセットであるMP-100ベンチマークを用いて、新しいアプローチを検証する。
1ショット設定で、当社のソリューションは1.07\%の顕著なパフォーマンス向上を実現し、CAPEのための新しい最先端技術を確立します。
さらに、テキスト記述アノテーションを提供することでデータセットを充実させ、将来の研究のためにその利便性をさらに強化する。
関連論文リスト
- Edge Weight Prediction For Category-Agnostic Pose Estimation [12.308036453869033]
Category-Agnostic Pose Estimation (CAPE) は、様々なオブジェクトカテゴリにまたがるキーポイントを1つのモデルでローカライズする。
グラフのエッジ重みを予測することによって制限を克服する新しいフレームワークであるEdgeCapeを紹介する。
これにより,グローバルな空間依存を捕捉するモデルの能力が向上することを示す。
論文 参考訳(メタデータ) (2024-11-25T18:53:09Z) - A Graph-Based Approach for Category-Agnostic Pose Estimation [12.308036453869033]
任意のオブジェクトカテゴリに対するキーポイントのローカライズを可能にするために、カテゴリに依存しないポーズ推定(CAPE)を導入した。
本稿では、入力ポーズデータをグラフとして扱うことにより、キーポイントを独立したエンティティとして扱う従来のCAPE技術との大きな違いを示す。
提案手法は1ショット設定で0.98%向上し,CAPEの新たな最先端を実現する。
論文 参考訳(メタデータ) (2023-11-29T18:44:12Z) - Self-supervised Few-shot Learning for Semantic Segmentation: An
Annotation-free Approach [4.855689194518905]
Few-shot semantic segmentation (FSS)は、医用画像解析の分野で大きな可能性を秘めている。
既存のFSS技術は注釈付きセマンティッククラスに大きく依存しており、医療画像には適さない。
本稿では,アノテーションに依存しない新たな自己教師型FSSフレームワークを提案する。その代わりに,支援画像から得られる固有ベクトルを利用して,クエリマスクを適応的に推定する。
論文 参考訳(メタデータ) (2023-07-26T18:33:30Z) - A Low-Shot Object Counting Network With Iterative Prototype Adaptation [14.650207945870598]
画像中の任意の意味カテゴリーの低ショットカウントは、注釈付き例(二ショット)やなし例(無ショット)のみを用いて検討する。
既存の手法は、形状情報(例えばサイズとアスペクト)を無視した特徴プーリングによってクエリを抽出し、オブジェクトのローカライズ精度を低下させ、推定値をカウントする。
反復型プロトタイプ適応(LOCA)を用いた低ショットオブジェクトカウントネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-15T15:39:23Z) - Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。
異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。
また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文 参考訳(メタデータ) (2022-07-21T09:40:54Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z) - Self-Supervised Tuning for Few-Shot Segmentation [82.32143982269892]
Few-shotのセグメンテーションは、アノテートされたサンプルがほとんどない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。
既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。
本稿では,複数のエピソードにまたがる潜在特徴の分布を,自己分割方式に基づいて動的に調整する適応型フレームワークチューニングを提案する。
論文 参考訳(メタデータ) (2020-04-12T03:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。