論文の概要: Unsupervised Spatial-Temporal Feature Enrichment and Fidelity
Preservation Network for Skeleton based Action Recognition
- arxiv url: http://arxiv.org/abs/2401.14034v1
- Date: Thu, 25 Jan 2024 09:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 15:08:05.526897
- Title: Unsupervised Spatial-Temporal Feature Enrichment and Fidelity
Preservation Network for Skeleton based Action Recognition
- Title(参考訳): 骨格に基づく行動認識のための教師なし時空間特徴強調と忠実度保存ネットワーク
- Authors: Chuankun Li, Shuai Li, Yanbo Gao, Ping Chen, Jian Li, Wanqing Li
- Abstract要約: 非教師なし骨格に基づく行動認識は近年顕著な進歩を遂げている。
既存の教師なし学習手法は、過度なオーバーフィッティング問題に悩まされる。
本稿では,高機能化を実現するために,非教師付き時空間特徴強調・忠実度保存フレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.07820929037547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised skeleton based action recognition has achieved remarkable
progress recently. Existing unsupervised learning methods suffer from severe
overfitting problem, and thus small networks are used, significantly reducing
the representation capability. To address this problem, the overfitting
mechanism behind the unsupervised learning for skeleton based action
recognition is first investigated. It is observed that the skeleton is already
a relatively high-level and low-dimension feature, but not in the same manifold
as the features for action recognition. Simply applying the existing
unsupervised learning method may tend to produce features that discriminate the
different samples instead of action classes, resulting in the overfitting
problem. To solve this problem, this paper presents an Unsupervised
spatial-temporal Feature Enrichment and Fidelity Preservation framework
(U-FEFP) to generate rich distributed features that contain all the information
of the skeleton sequence. A spatial-temporal feature transformation subnetwork
is developed using spatial-temporal graph convolutional network and graph
convolutional gate recurrent unit network as the basic feature extraction
network. The unsupervised Bootstrap Your Own Latent based learning is used to
generate rich distributed features and the unsupervised pretext task based
learning is used to preserve the information of the skeleton sequence. The two
unsupervised learning ways are collaborated as U-FEFP to produce robust and
discriminative representations. Experimental results on three widely used
benchmarks, namely NTU-RGB+D-60, NTU-RGB+D-120 and PKU-MMD dataset, demonstrate
that the proposed U-FEFP achieves the best performance compared with the
state-of-the-art unsupervised learning methods. t-SNE illustrations further
validate that U-FEFP can learn more discriminative features for unsupervised
skeleton based action recognition.
- Abstract(参考訳): 教師なしスケルトンに基づく行動認識は近年著しい進歩を遂げている。
既存の教師なし学習法は深刻な過剰フィッティング問題に苦しむため、小さなネットワークが使われ、表現能力が著しく低下する。
この問題に対処するために,スケルトンに基づく行動認識のための教師なし学習の裏側にある過度な適合機構を最初に検討した。
骨格は比較的高層かつ低次元の特徴を持つが,作用認識の特徴と同一の多様体にはないことが観察された。
既存の教師なし学習手法を単純に適用すれば、アクションクラスの代わりに異なるサンプルを識別する特徴が生じる傾向があり、結果としてオーバーフィッティング問題が発生する。
この問題を解決するために, 骨格の全ての情報を含む豊富な分散特徴を生成するために, 非教師付き時空間特徴強調保存フレームワーク(U-FEFP)を提案する。
空間-時間グラフ畳み込みネットワークとグラフ畳み込みゲートリカレントユニットネットワークを基本特徴抽出ネットワークとして、空間-時間特徴変換サブネットワークを開発した。
unsupervised bootstrap your own latent based learningはリッチな分散機能を生成するために、unsupervised pretext task based learningはスケルトンシーケンスの情報を保存するために使用される。
2つの教師なし学習方法は、堅牢で差別的な表現を生成するためにU-FEFPとして協調される。
NTU-RGB+D-60、NTU-RGB+D-120、PKU-MMDデータセットという3つの広く使われているベンチマークの実験結果から、提案したU-FEFPが、最先端の教師なし学習手法と比較して最高の性能を達成できることが示されている。
t-SNE図は、U-FEFPが教師なし骨格に基づく行動認識のためのより識別的な特徴を学習できることをさらに証明している。
関連論文リスト
- Idempotent Unsupervised Representation Learning for Skeleton-Based Action Recognition [13.593511876719367]
教師なし表現学習のための新しい骨格ベース等等化生成モデル(IGM)を提案する。
ベンチマークデータセットであるNTU RGB+DとPKUMMDに関する実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-27T06:29:04Z) - Enhancing Fine-Grained Visual Recognition in the Low-Data Regime Through Feature Magnitude Regularization [23.78498670529746]
抽出した特徴量の均等分布を保証するために正規化手法を導入する。
その明らかな単純さにもかかわらず、我々の手法は様々な細粒度視覚認識データセットに対して顕著な性能向上を示した。
論文 参考訳(メタデータ) (2024-09-03T07:32:46Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Neuro-mimetic Task-free Unsupervised Online Learning with Continual
Self-Organizing Maps [56.827895559823126]
自己組織化マップ(英: Self-organizing map、SOM)は、クラスタリングや次元減少によく用いられるニューラルネットワークモデルである。
低メモリ予算下でのオンライン教師なし学習が可能なSOM(連続SOM)の一般化を提案する。
MNIST, Kuzushiji-MNIST, Fashion-MNISTなどのベンチマークでは, ほぼ2倍の精度が得られた。
論文 参考訳(メタデータ) (2024-02-19T19:11:22Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - HAN: An Efficient Hierarchical Self-Attention Network for Skeleton-Based
Gesture Recognition [73.64451471862613]
骨格に基づくジェスチャー認識のための効率的な階層型自己認識ネットワーク(HAN)を提案する。
ジョイント・セルフアテンション・モジュールは指の空間的特徴を捉え、指の自己アテンション・モジュールは手全体の特徴を集約するように設計されている。
実験の結果,3つのジェスチャ認識データセットに対して,計算複雑性がはるかに低い競合的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-25T02:15:53Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D
Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。
本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文 参考訳(メタデータ) (2020-09-05T16:06:04Z) - Improving Skeleton-based Action Recognitionwith Robust Spatial and
Temporal Features [6.548580592686076]
空間と時間におけるより堅牢な識別的特徴を学習するための新しいメカニズムを提案する。
これらの頑健な特徴を学習し、使用することにより、動作認識精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-08-01T19:29:53Z) - SEKD: Self-Evolving Keypoint Detection and Description [42.114065439674036]
ラベルのない自然画像から高度な局所特徴モデルを学ぶための自己教師型フレームワークを提案する。
提案手法は, ホモグラフィー推定, 相対的なポーズ推定, および動きからの構造的タスクについてベンチマークする。
トレーニングされたモデルとともに、コードを公開します。
論文 参考訳(メタデータ) (2020-06-09T06:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。