論文の概要: Learning by Neighbor-Aware Semantics, Deciding by Open-form Flows: Towards Robust Zero-Shot Skeleton Action Recognition
- arxiv url: http://arxiv.org/abs/2511.09388v1
- Date: Thu, 13 Nov 2025 01:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.547633
- Title: Learning by Neighbor-Aware Semantics, Deciding by Open-form Flows: Towards Robust Zero-Shot Skeleton Action Recognition
- Title(参考訳): 開形流に決定される近隣認識セマンティックスによる学習:ロバストゼロショットスケルトン行動認識に向けて
- Authors: Yang Chen, Miaoge Li, Zhijie Rao, Deze Zeng, Song Guo, Jingcai Guo,
- Abstract要約: ゼロショットスケルトン動作認識のための新しい手法を,$texttt$textbfFlora$$として提案する。
具体的には、方向対応の地域意味論と相互整合性目標を取り入れたテキスト意味論を実践する。
3つのベンチマークデータセットによる実験により,本手法の有効性が検証された。
- 参考スコア(独自算出の注目度): 41.77490816513839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing unseen skeleton action categories remains highly challenging due to the absence of corresponding skeletal priors. Existing approaches generally follow an "align-then-classify" paradigm but face two fundamental issues, i.e., (i) fragile point-to-point alignment arising from imperfect semantics, and (ii) rigid classifiers restricted by static decision boundaries and coarse-grained anchors. To address these issues, we propose a novel method for zero-shot skeleton action recognition, termed $\texttt{$\textbf{Flora}$}$, which builds upon $\textbf{F}$lexib$\textbf{L}$e neighb$\textbf{O}$r-aware semantic attunement and open-form dist$\textbf{R}$ibution-aware flow cl$\textbf{A}$ssifier. Specifically, we flexibly attune textual semantics by incorporating neighboring inter-class contextual cues to form direction-aware regional semantics, coupled with a cross-modal geometric consistency objective that ensures stable and robust point-to-region alignment. Furthermore, we employ noise-free flow matching to bridge the modality distribution gap between semantic and skeleton latent embeddings, while a condition-free contrastive regularization enhances discriminability, leading to a distribution-aware classifier with fine-grained decision boundaries achieved through token-level velocity predictions. Extensive experiments on three benchmark datasets validate the effectiveness of our method, showing particularly impressive performance even when trained with only 10\% of the seen data. Code is available at https://github.com/cseeyangchen/Flora.
- Abstract(参考訳): 肉眼で見えない骨格の行動カテゴリーを認識することは、対応する骨格前駆体がないため、非常に困難である。
既存のアプローチは一般に「一様の分類」パラダイムに従っているが、2つの根本的な問題、すなわち2つの問題に直面している。
一 不完全な意味論から生じる脆弱な点対点アライメント、及び
(ii)静的決定境界と粗粒のアンカーによって制限された剛性分類器。
これらの問題に対処するため、ゼロショットスケルトン行動認識のための新しい手法を$\textbf{F}$lexib$\textbf{L}$e neighb$\textbf{O}$r-aware semantic attunementとopen-form dist$\textbf{R}$ibution-aware flow cl$\textbf{A}$sifier上に構築する$\textbf{F}$lexib$\textbf{L}$e neighb$\textbf{O}$r-aware semantic attunementを提案する。
具体的には、近隣の文脈的手がかりを組み込んで方向対応の地域意味論を形成することで、テキスト意味論を柔軟に調整し、安定かつ堅牢なポイント・ツー・リージョンアライメントを確実にするクロスモーダルな幾何学的整合性目標と組み合わせる。
さらに,条件のないコントラスト正規化により識別性が向上し,トークンレベルの速度予測によって決定境界がきめ細かな分布認識型分類器が実現される。
3つのベンチマークデータセットによる大規模な実験により,本手法の有効性が検証された。
コードはhttps://github.com/cseeyangchen/Flora.comで入手できる。
関連論文リスト
- Ambiguity-aware Point Cloud Segmentation by Adaptive Margin Contrastive Learning [65.94127546086156]
本稿では,ポイントクラウド上のセマンティックセマンティックセグメンテーションのための適応的マージン比較学習法を提案する。
まず,両立度推定フレームワークにコントラスト学習を組み込んだAMContrast3Dを設計する。
共同トレーニングの洞察に触発されて、並列にトレーニングされた2つのブランチとAMContrast3D++を統合することを提案する。
論文 参考訳(メタデータ) (2025-07-09T07:00:32Z) - Selecting and Pruning: A Differentiable Causal Sequentialized State-Space Model for Two-View Correspondence Learning [36.25732435294088]
2視点対応学習は,イメージペア間の真と偽の対応を識別することを目的としている。
Mamba固有の選択性にインスパイアされ、textbfCorrMamba, textbfCor correspondingence filterを提案する。
我々の方法は、AUC@20textdegreeにおいて、以前のSOTAを2.58ドルの絶対パーセンテージポイントで上回っている。
論文 参考訳(メタデータ) (2025-03-23T04:44:21Z) - Bridging the Skeleton-Text Modality Gap: Diffusion-Powered Modality Alignment for Zero-shot Skeleton-based Action Recognition [25.341177384559174]
ゼロショットスケルトンに基づくアクション認識では、スケルトン特徴とアクションラベルのテキスト特徴との整合が不可欠である。
以前の方法は、スケルトンとテキスト潜在空間の直接的なアライメントに焦点を当てていた。
ZSARのための拡散型スケルトンテキストアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-16T08:55:18Z) - SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking [89.43370214059955]
Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。
我々は,連合の初期段階において,意味論,位置,出現の先行を共同で検討する統一的な枠組みを提案する。
提案手法は,異なるキューを融合するための複雑な後処理を排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:36:58Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Semantic Connectivity-Driven Pseudo-labeling for Cross-domain
Segmentation [89.41179071022121]
自己学習はドメイン間セマンティックセグメンテーションにおいて一般的なアプローチである。
本稿ではセマンティック・コネクティビティ駆動の擬似ラベル方式を提案する。
このアプローチは、接続レベルにおいて擬似ラベルを定式化し、構造的および低雑音のセマンティクスの学習を容易にする。
論文 参考訳(メタデータ) (2023-12-11T12:29:51Z) - Unsupervised Semantic Segmentation by Distilling Feature Correspondences [94.73675308961944]
教師なしセマンティックセグメンテーション(unsupervised semantic segmentation)は、アノテーションなしで画像コーパス内の意味論的意味のあるカテゴリを発見し、ローカライズすることを目的としている。
STEGOは、教師なし特徴を高品質な個別のセマンティックラベルに蒸留する新しいフレームワークである。
STEGOは、CocoStuffとCityscapesの両課題において、先行技術よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-16T06:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。