論文の概要: GenCape: Structure-Inductive Generative Modeling for Category-Agnostic Pose Estimation
- arxiv url: http://arxiv.org/abs/2605.13151v1
- Date: Wed, 13 May 2026 08:17:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.902104
- Title: GenCape: Structure-Inductive Generative Modeling for Category-Agnostic Pose Estimation
- Title(参考訳): GenCape: カテゴリーに依存しないポーズ推定のための構造帰納的生成モデル
- Authors: Jiyong Rao, Yu Wang, Shengjie Zhao,
- Abstract要約: カテゴリに依存しないポーズ推定(CAPE)は、任意のカテゴリからクエリイメージ上のキーポイントをローカライズすることを目的としている。
我々は、画像ベースのサポート入力のみからキーポイント関係を推論するCAPEのためのジェネレーティブベースのフレームワークであるGenCapeを提案する。
- 参考スコア(独自算出の注目度): 22.606848016741107
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Category-agnostic pose estimation (CAPE) aims to localize keypoints on query images from arbitrary categories, using only a few annotated support examples for guidance. Recent approaches either treat keypoints as isolated entities or rely on manually defined skeleton priors, which are costly to annotate and inherently inflexible across diverse categories. Such oversimplification limits the model's capacity to capture instance-wise structural cues critical for accurate pixel-level localization. To overcome these limitations, we propose GenCape, a Generative-based framework for CAPE that infers keypoint relationships solely from image-based support inputs, without additional textual descriptions or predefined skeletons. Our framework consists of two principal components: an iterative Structure-aware Variational Autoencoder (i-SVAE) and a Compositional Graph Transfer (CGT) module. The former infers soft, instance-specific adjacency matrices from support features through variational inference, embedded layer-wise into the Graph Transformer Decoder for progressive structural priors refinement. The latter adaptively aggregates multiple latent graphs into a query-aware structure via Bayesian fusion and attention-based reweighting, enhancing resilience to visual uncertainty and support-induced bias. This structure-aware design facilitates effective message propagation among keypoints and promotes semantic alignment across object categories with diverse keypoint topologies. Experimental results on the MP-100 dataset show that our method achieves substantial gains over graph-support baselines under both 1- and 5-shot settings, while maintaining competitive performance against text-support counterparts.
- Abstract(参考訳): カテゴリに依存しないポーズ推定(CAPE)は、任意のカテゴリからクエリイメージのキーポイントをローカライズすることを目的としている。
近年のアプローチでは、キーポイントを独立したエンティティとして扱うか、あるいは手動で定義されたスケルトン先行に依存している。
このような単純化は、正確なピクセルレベルのローカライゼーションに重要なインスタンス単位の構造的キューをキャプチャする能力を制限する。
このような制限を克服するために,画像ベースのサポート入力のみからキーポイント関係を推論するCAPEのジェネレーティブベースのフレームワークであるGenCapeを提案する。
本フレームワークは,反復型構造対応変分オートエンコーダ (i-SVAE) と合成グラフ転送 (CGT) モジュールの2つの主要コンポーネントから構成される。
前者はサポート機能から変分推論によるソフトなインスタンス固有の隣接行列を推論し、段階的な構造的事前改善のためにグラフトランスフォーマーデコーダに埋め込みます。
後者は、複数の潜伏グラフをベイズ融合と注意に基づく再重み付けによってクエリ対応構造に適応的に集約し、視覚的不確実性に対するレジリエンスを高め、サポートによって引き起こされるバイアスを増大させる。
この構造対応設計は、キーポイント間の効果的なメッセージ伝達を促進し、様々なキーポイントトポロジを持つオブジェクトカテゴリ間のセマンティックアライメントを促進する。
MP-100データセットを用いた実験結果から,本手法は1ショットと5ショットの両方の設定でグラフサポートベースラインよりも大幅に向上し,テキストサポートベースラインと競合する性能を維持した。
関連論文リスト
- Domain Generalization through Spatial Relation Induction over Visual Primitives [4.085285915236828]
Primitive-Aware Structure for Domain gEneralization (PARSE) は、視覚的視覚的プリミティブとその関係性を構成する画像分類フレームワークである。
本研究では, ソフトバイナリ, 三項述語, 四項述語を用いて, 端から端まで学習可能な空間アライメント(空間アライメント, 空間アライメント, 空間アライメント, 空間アライメント, 空間アライメント, 空間アライメント, 空間アライメント, 空間アライメント, 空間アライメント, 空間アライメント, 空間アライメント, 空間アライメント, 空間アライメント, 空間アライメント, 空間アライメント) を表現した。
CUB-DGとDomainBedベンチマークスイート全体で、PARSEはCUB-DGの精度を4.5ポイント以上改善し、DomainBedの既存のDGメソッドと競合し続けている。
論文 参考訳(メタデータ) (2026-05-07T11:31:46Z) - Matching-Based Few-Shot Semantic Segmentation Models Are Interpretable by Design [8.993770750003673]
Few-Shot Semantic (FSS)モデルは、最小限のラベル付き例を持つ新規クラスのセグメンテーションにおいて強力な性能を達成する。
本稿では、マッチングベースのFSSモデルを解釈するための最初の専用手法を提案する。
Affinity Explainer アプローチは,画像のどのピクセルがクエリセグメンテーション予測に最も寄与しているかを示す属性マップを抽出する。
論文 参考訳(メタデータ) (2025-11-22T19:22:10Z) - Point or Line? Using Line-based Representation for Panoptic Symbol Spotting in CAD Drawings [67.5600169375126]
ベクトルグラフィカルプリミティブからなるCAD図面におけるパノプティカルシンボルスポッティングの課題について検討する。
既存の手法は通常、画像化、グラフ構築、あるいは点ベースの表現に依存している。
本稿では,プリミティブの行ベースの表現を通じてこれらの課題に対処する新しい手法であるVecFormerを提案する。
論文 参考訳(メタデータ) (2025-05-29T12:33:11Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and
Local Consensus Guided Cross Attention [7.939095881813804]
少ないショットセグメンテーションは、注釈付き画像のみを提供する新しいタスクに迅速に適応できるセグメンテーションモデルをトレーニングすることを目的としている。
本稿では,対象オブジェクトの相対的サイズに基づいて,サポートイメージを拡大するIDA戦略を提案する。
提案したIDAは,サポートセットの多様性を効果的に向上し,サポートイメージとクエリイメージ間の分散一貫性を促進する。
論文 参考訳(メタデータ) (2024-01-18T10:29:10Z) - Few-shot Semantic Segmentation with Support-induced Graph Convolutional
Network [28.46908214462594]
Few-shot semantic segmentation (FSS) は、いくつかの注釈付きサンプルで新しいオブジェクトのセグメンテーションを実現することを目的としている。
本稿では,クエリ画像中の遅延コンテキスト構造を明示的に抽出するために,Support-induced Graph Convolutional Network (SiGCN)を提案する。
論文 参考訳(メタデータ) (2023-01-09T08:00:01Z) - Self-Supervised Tuning for Few-Shot Segmentation [82.32143982269892]
Few-shotのセグメンテーションは、アノテートされたサンプルがほとんどない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。
既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。
本稿では,複数のエピソードにまたがる潜在特徴の分布を,自己分割方式に基づいて動的に調整する適応型フレームワークチューニングを提案する。
論文 参考訳(メタデータ) (2020-04-12T03:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。