論文の概要: CHASE: Learning Convex Hull Adaptive Shift for Skeleton-based Multi-Entity Action Recognition
- arxiv url: http://arxiv.org/abs/2410.07153v1
- Date: Wed, 9 Oct 2024 17:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 21:56:57.475238
- Title: CHASE: Learning Convex Hull Adaptive Shift for Skeleton-based Multi-Entity Action Recognition
- Title(参考訳): CHASE:スケルトンに基づくマルチエンティティ動作認識のためのコンベックスハル適応シフト学習
- Authors: Yuhang Wen, Mengyuan Liu, Songtao Wu, Beichen Ding,
- Abstract要約: CHASEはサンプル適応正規化法として機能し、濃度間分布の相違を緩和する。
このアプローチはシングルエンタリティのバックボーンにシームレスに適応し、マルチエンタリティシナリオにおけるパフォーマンスを向上します。
- 参考スコア(独自算出の注目度): 10.045163723630159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based multi-entity action recognition is a challenging task aiming to identify interactive actions or group activities involving multiple diverse entities. Existing models for individuals often fall short in this task due to the inherent distribution discrepancies among entity skeletons, leading to suboptimal backbone optimization. To this end, we introduce a Convex Hull Adaptive Shift based multi-Entity action recognition method (CHASE), which mitigates inter-entity distribution gaps and unbiases subsequent backbones. Specifically, CHASE comprises a learnable parameterized network and an auxiliary objective. The parameterized network achieves plausible, sample-adaptive repositioning of skeleton sequences through two key components. First, the Implicit Convex Hull Constrained Adaptive Shift ensures that the new origin of the coordinate system is within the skeleton convex hull. Second, the Coefficient Learning Block provides a lightweight parameterization of the mapping from skeleton sequences to their specific coefficients in convex combinations. Moreover, to guide the optimization of this network for discrepancy minimization, we propose the Mini-batch Pair-wise Maximum Mean Discrepancy as the additional objective. CHASE operates as a sample-adaptive normalization method to mitigate inter-entity distribution discrepancies, thereby reducing data bias and improving the subsequent classifier's multi-entity action recognition performance. Extensive experiments on six datasets, including NTU Mutual 11/26, H2O, Assembly101, Collective Activity and Volleyball, consistently verify our approach by seamlessly adapting to single-entity backbones and boosting their performance in multi-entity scenarios. Our code is publicly available at https://github.com/Necolizer/CHASE .
- Abstract(参考訳): スケルトンをベースとした多目的行動認識は、対話的行動や複数の多様な実体を含むグループ活動の識別を目的とした課題である。
既存の個人モデルは、エンティティスケルトン間の分布の相違により、しばしばこのタスクで不足し、最適なバックボーンの最適化に繋がる。
この目的のために,Convex Hull Adaptive Shift based multi-Entity Action Recognition method (CHASE)を導入する。
具体的には、学習可能なパラメータ化ネットワークと補助目的とから構成される。
パラメータ化されたネットワークは、2つのキーコンポーネントを通してスケルトン配列の可塑性でサンプル適応的な再配置を実現する。
第一に、Implicit Convex Hull Constrained Adaptive Shiftは、座標系の新しい起源が骨格凸殻内にあることを保証している。
第2に、Coefficient Learning Blockは、スケルトンシーケンスから凸結合における特定の係数へのマッピングの軽量なパラメータ化を提供する。
さらに,誤差最小化のためのネットワークの最適化を導出するために,ミニバッチペアワイドの最大平均離散性を付加目的として提案する。
CHASEはサンプル適応正規化法として機能し、データバイアスを低減し、その後の分類器のマルチエンタリティ動作認識性能を向上させる。
NTU Mutual 11/26, H2O, Assembly101, Collective Activity, Volleyballを含む6つのデータセットに対する大規模な実験は、単一エンタリティのバックボーンにシームレスに適応し、マルチエンタリティシナリオにおけるパフォーマンスを向上することで、私たちのアプローチを一貫して検証しています。
私たちのコードはhttps://github.com/Necolizer/CHASE で公開されています。
関連論文リスト
- Bridging Multicalibration and Out-of-distribution Generalization Beyond Covariate Shift [44.708914058803224]
マルチキャリブレーションによるアウト・オブ・ディストリビューションの一般化のための新しいモデルに依存しない最適化フレームワークを構築した。
本稿では,マルチキャリブレーションとアウト・オブ・ディストリビューションの一般化を両立させるポストプロセッシングアルゴリズムMC-Pseudolabelを提案する。
論文 参考訳(メタデータ) (2024-06-02T08:11:35Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - DiTMoS: Delving into Diverse Tiny-Model Selection on Microcontrollers [34.282971510732736]
我々は、セレクタ分類器アーキテクチャを備えた新しいDNNトレーニングおよび推論フレームワークであるDiTMoSを紹介する。
弱いモデルの合成は高い多様性を示すことができ、それらの結合は精度の上限を大幅に高めることができる。
我々は,Nucleo STM32F767ZIボード上にDiTMoSをデプロイし,人間の活動認識,キーワードスポッティング,感情認識のための時系列データセットに基づいて評価する。
論文 参考訳(メタデータ) (2024-03-14T02:11:38Z) - Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-22T03:27:46Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - CFNet: Learning Correlation Functions for One-Stage Panoptic
Segmentation [46.252118473248316]
バックボーンの特徴を高めるために,まず,異なる場所のセマンティックレベルとインスタンスレベルの相関関係を推定することを提案する。
次に,改良された識別特徴をそれぞれ対応するセグメンテーションヘッドに供給する。
PQは45.1ドル%、ADE20kは32.6ドル%である。
論文 参考訳(メタデータ) (2022-01-13T05:31:14Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - Multi-Person Pose Estimation with Enhanced Feature Aggregation and
Selection [33.15192824888279]
複数人物のポーズ推定のためのEFASNet(Enhanced Feature Aggregation and Selection Network)を提案する。
我々の手法は、混み合った、散らばった、ぎこちないシーンをうまく扱える。
総合的な実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-20T08:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。