論文の概要: CapeNext: Rethinking and refining dynamic support information for category-agnostic pose estimation
- arxiv url: http://arxiv.org/abs/2511.13102v1
- Date: Mon, 17 Nov 2025 07:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.975185
- Title: CapeNext: Rethinking and refining dynamic support information for category-agnostic pose estimation
- Title(参考訳): CapeNext:カテゴリーに依存しないポーズ推定のための動的サポート情報の再考と精錬
- Authors: Yu Zhu, Dan Zeng, Shuiwang Li, Qijun Zhao, Qiaomu Shen, Bo Tang,
- Abstract要約: 本稿では,階層的相互モーダル相互作用とデュアルストリーム機能改善を融合した新しいフレームワークを提案する。
MP-100データセットの実験では、CapeNextは最先端のCAPEメソッドを大きなマージンで一貫して上回っている。
- 参考スコア(独自算出の注目度): 31.75814544639098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research in Category-Agnostic Pose Estimation (CAPE) has adopted fixed textual keypoint description as semantic prior for two-stage pose matching frameworks. While this paradigm enhances robustness and flexibility by disentangling the dependency of support images, our critical analysis reveals two inherent limitations of static joint embedding: (1) polysemy-induced cross-category ambiguity during the matching process(e.g., the concept "leg" exhibiting divergent visual manifestations across humans and furniture), and (2) insufficient discriminability for fine-grained intra-category variations (e.g., posture and fur discrepancies between a sleeping white cat and a standing black cat). To overcome these challenges, we propose a new framework that innovatively integrates hierarchical cross-modal interaction with dual-stream feature refinement, enhancing the joint embedding with both class-level and instance-specific cues from textual description and specific images. Experiments on the MP-100 dataset demonstrate that, regardless of the network backbone, CapeNext consistently outperforms state-of-the-art CAPE methods by a large margin.
- Abstract(参考訳): 最近のCAPE(Canagory-Agnostic Pose Estimation)の研究は、2段階のポーズマッチングフレームワークのセマンティクスとして固定的なテキストキーポイント記述を採用した。
このパラダイムは, 支持画像の依存性を解消し, 頑健さと柔軟性を高める一方で, 静的な関節埋め込みに固有の2つの限界があることを批判的分析により明らかにした。(1) 一致過程(例えば, 人や家具間で異なる視覚的特徴を示す「レグ」の概念)において, 1) 睡眠中の白猫と待機中の黒猫との間には, 微粒なカテゴリー内変異(例えば, 姿勢, 毛皮の相違)に対する識別性が不十分である。
これらの課題を克服するため,本研究では,階層的相互モーダル相互作用とデュアルストリーム機能改善を革新的に統合し,テキスト記述や特定の画像からクラスレベルとインスタンス固有のキューを併用する,新たなフレームワークを提案する。
MP-100データセットの実験では、ネットワークバックボーンに関係なく、CapeNextは、最先端のCAPEメソッドを大きなマージンで一貫して上回っている。
関連論文リスト
- CLAMP: Contrastive Learning with Adaptive Multi-loss and Progressive Fusion for Multimodal Aspect-Based Sentiment Analysis [0.6961946145048322]
本稿では,Adaptive Multi-lossとProgressive Attention Fusionを用いた,エンドツーエンドのコントラスト学習フレームワークを提案する。
このフレームワークは、Progressive Attention Fusion Network、Multi-task Contrastive Learning、Adaptive Multi-loss Aggregationの3つの新しいモジュールで構成されている。
標準の公開ベンチマークによる評価は、CLAMPが既存の最先端技術よりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-07-21T11:49:57Z) - From Visual Explanations to Counterfactual Explanations with Latent Diffusion [11.433402357922414]
本稿では,近年の顕著な研究における2つの課題に対処するための新しいアプローチを提案する。
まず、ターゲットクラスの"概念"と元のクラスを区別するために、どの特定の反事実的特徴が重要かを決定する。
第二に、非ロバスト分類器に対して、対向的に堅牢なモデルのサポートに頼ることなく、重要な説明を提供する。
論文 参考訳(メタデータ) (2025-04-12T13:04:00Z) - Action Quality Assessment via Hierarchical Pose-guided Multi-stage Contrastive Regression [46.25518274714238]
アクションアセスメント(AQA)は、運動性能の自動的、公平な評価を目的としている。
現在の手法では、動画を固定フレームに分割することに集中しており、サブアクションの時間的連続性を損なう。
階層的なポーズ誘導型多段階コントラスト回帰による行動品質評価手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T10:20:16Z) - Cross-Domain Few-Shot Segmentation via Iterative Support-Query
Correspondence Mining [81.09446228688559]
Cross-Domain Few-Shots (CD-FSS) は、限定された例のみを用いて、異なるドメインから新しいカテゴリを分割するという課題を提起する。
本稿では,CD-FSSの課題に対処する新しいクロスドメイン微調整手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T14:45:41Z) - Multi-Content Interaction Network for Few-Shot Segmentation [37.80624074068096]
Few-Shot COCOは、サポート画像の制限とクラス内における大きな相違に挑戦している。
この問題を解決するために,MCINet(Multi-Content Interaction Network)を提案する。
MCINetは、他のクエリブランチから低レベルの構造情報を高レベルのセマンティック機能に組み込むことで、FSSを改善している。
論文 参考訳(メタデータ) (2023-03-11T04:21:59Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty
Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。
前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。
後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文 参考訳(メタデータ) (2021-04-01T03:21:57Z) - BriNet: Towards Bridging the Intra-class and Inter-class Gaps in
One-Shot Segmentation [84.2925550033094]
ほとんどショットのセグメンテーションは、限られたトレーニングサンプルで見えないオブジェクトインスタンスをセグメンテーションするためのモデルの一般化に焦点を当てている。
本稿では,クエリの抽出した特徴とサポートイメージのギャップを埋めるフレームワーク BriNet を提案する。
本フレームワークの有効性は,他の競合手法よりも優れる実験結果によって実証された。
論文 参考訳(メタデータ) (2020-08-14T07:45:50Z) - COBRA: Contrastive Bi-Modal Representation Algorithm [43.33840912256077]
本稿では,CPC(Contrastive Predictive Coding)とNCE(Noth Contrastive Estimation)のパラダイムにインスパイアされた,2つのモダリティの学習を目的とした新しいフレームワークを提案する。
本研究では,この枠組みがモダリティギャップを大幅に減らし,ロバストでタスクに依存しない共同埋め込み空間を生成することを実証的に示す。
7つのベンチマークのクロスモーダルデータセットにまたがる4つのダウンストリームタスクにおいて、既存の作業よりも優れています。
論文 参考訳(メタデータ) (2020-05-07T18:20:12Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。