論文の概要: SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders
- arxiv url: http://arxiv.org/abs/2407.13460v1
- Date: Thu, 18 Jul 2024 12:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 15:30:45.974369
- Title: SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders
- Title(参考訳): SA-DVAE:分散変分オートエンコーダによるゼロショットスケルトンに基づく行動認識の改善
- Authors: Sheng-Wei Li, Zi-Xiang Wei, Wei-Jie Chen, Yi-Hsin Yu, Chih-Yuan Yang, Jane Yung-jen Hsu,
- Abstract要約: 本稿では,分散変分オートエンコーダを用いたSA-DVAE-セマンティックアライメントを提案する。
このアイデアは,一対のモダリティ特異的変分オートエンコーダと全補正ペナルティによって実現される。
実験の結果,SA-DAVEは既存手法よりも性能が向上していることがわかった。
- 参考スコア(独自算出の注目度): 7.618223798662929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing zero-shot skeleton-based action recognition methods utilize projection networks to learn a shared latent space of skeleton features and semantic embeddings. The inherent imbalance in action recognition datasets, characterized by variable skeleton sequences yet constant class labels, presents significant challenges for alignment. To address the imbalance, we propose SA-DVAE -- Semantic Alignment via Disentangled Variational Autoencoders, a method that first adopts feature disentanglement to separate skeleton features into two independent parts -- one is semantic-related and another is irrelevant -- to better align skeleton and semantic features. We implement this idea via a pair of modality-specific variational autoencoders coupled with a total correction penalty. We conduct experiments on three benchmark datasets: NTU RGB+D, NTU RGB+D 120 and PKU-MMD, and our experimental results show that SA-DAVE produces improved performance over existing methods. The code is available at https://github.com/pha123661/SA-DVAE.
- Abstract(参考訳): 既存のゼロショットスケルトンに基づく行動認識手法では、プロジェクションネットワークを用いて、骨格の特徴とセマンティック埋め込みの共有潜在空間を学習する。
動作認識データセットの固有の不均衡は、可変スケルトンシーケンスで特徴づけられるが、クラスラベルは一定であり、アライメントの重要な課題である。
この不均衡に対処するために、私たちはSA-DVAE -- Disentangled Variational Autoencodersによるセマンティックアライメント(Semantic Alignment) -- スケルトンの特徴を2つの独立した部分 – 1つはセマンティック関連であり、もう1つは無関係 – に分割することで、スケルトンとセマンティック特徴の整合性を向上する手法を提案する。
このアイデアは,一対のモダリティ特異的変分オートエンコーダと全補正ペナルティによって実現される。
我々は,NTU RGB+D,NTU RGB+D 120,PKU-MMDの3つのベンチマークデータセットを用いて実験を行った。
コードはhttps://github.com/pha123661/SA-DVAEで公開されている。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Spatial-Temporal Decoupling Contrastive Learning for Skeleton-based
Human Action Recognition [10.403751563214113]
STD-CLは、配列から識別的および意味的に異なる表現を得るためのフレームワークである。
STD-CLは、NTU60、NTU120、NW-UCLAベンチマークでしっかりと改善されている。
論文 参考訳(メタデータ) (2023-12-23T02:54:41Z) - Unveiling the Hidden Realm: Self-supervised Skeleton-based Action
Recognition in Occluded Environments [41.664437160034176]
そこで本研究では,ロボットの閉塞に対処する能力を持つ簡易かつ効果的な手法を提案する。
まず、隠蔽されたスケルトン配列を用いて事前トレーニングを行い、次にk平均クラスタリング(KMeans)を用いてシーケンス埋め込みを行い、意味的に類似したサンプルをグループ化する。
次に、K-nearest-neighbor(KNN)を用いて、最も近いサンプル隣人に基づいて、行方不明の骨格データを埋める。
論文 参考訳(メタデータ) (2023-09-21T12:51:11Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - Align, Perturb and Decouple: Toward Better Leverage of Difference
Information for RSI Change Detection [24.249552791014644]
変化検出は、リモートセンシング画像(RSI)解析において広く採用されている手法である。
そこで我々は,アライメント,摂動,デカップリングといった差分情報を完全に活用するための一連の操作を提案する。
論文 参考訳(メタデータ) (2023-05-30T03:39:53Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - AAVAE: Augmentation-Augmented Variational Autoencoders [43.73699420145321]
本稿では,自動符号化に基づく自己教師型学習における第3のアプローチであるAugmentation-augmented variational autoencoders (AAVAE)を紹介する。
画像分類において提案したAAVAEを,最近のコントラスト学習アルゴリズムや非コントラスト学習アルゴリズムと同様に実証的に評価した。
論文 参考訳(メタデータ) (2021-07-26T17:04:30Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。