論文の概要: USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation
- arxiv url: http://arxiv.org/abs/2412.09220v2
- Date: Sat, 14 Dec 2024 05:42:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 10:33:03.415307
- Title: USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation
- Title(参考訳): USDRL:多品位特徴デコレーションを用いた一元化スケルトンに基づくDense Representation Learning
- Authors: Wanjiang Weng, Hongsong Wang, Junbo Wang, Lei He, Guosen Xie,
- Abstract要約: 本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。
我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 24.90512145836643
- License:
- Abstract: Contrastive learning has achieved great success in skeleton-based representation learning recently. However, the prevailing methods are predominantly negative-based, necessitating additional momentum encoder and memory bank to get negative samples, which increases the difficulty of model training. Furthermore, these methods primarily concentrate on learning a global representation for recognition and retrieval tasks, while overlooking the rich and detailed local representations that are crucial for dense prediction tasks. To alleviate these issues, we introduce a Unified Skeleton-based Dense Representation Learning framework based on feature decorrelation, called USDRL, which employs feature decorrelation across temporal, spatial, and instance domains in a multi-grained manner to reduce redundancy among dimensions of the representations to maximize information extraction from features. Additionally, we design a Dense Spatio-Temporal Encoder (DSTE) to capture fine-grained action representations effectively, thereby enhancing the performance of dense prediction tasks. Comprehensive experiments, conducted on the benchmarks NTU-60, NTU-120, PKU-MMD I, and PKU-MMD II, across diverse downstream tasks including action recognition, action retrieval, and action detection, conclusively demonstrate that our approach significantly outperforms the current state-of-the-art (SOTA) approaches. Our code and models are available at https://github.com/wengwanjiang/USDRL.
- Abstract(参考訳): コントラスト学習は近年,骨格に基づく表現学習において大きな成功を収めている。
しかし、一般的な手法は、主に負のベースであり、モデルトレーニングの難易度を高めるために、モメンタエンコーダとメモリバンクを追加する必要がある。
さらに、これらの手法は主に認識・検索タスクのグローバルな表現を学習することに集中し、密集した予測タスクに不可欠なリッチで詳細な局所表現を見渡す。
これらの問題を緩和するため,USDRLと呼ばれる特徴デコレーションに基づく統一スケルトンに基づくDense Representation Learningフレームワークを導入し,時間的,空間的,インスタンス領域にまたがる特徴デコレーションを適用し,表現の次元間の冗長性を低減し,特徴からの情報抽出を最大化する。
さらに, Dense Spatio-Temporal Encoder (DSTE) を設計し, 微細な動作表現を効果的に捕捉し, 密集予測タスクの性能を向上させる。
NTU-60, NTU-120, PKU-MMD I, PKU-MMD IIで実施した総合的な実験は, 動作認識, 行動検索, 行動検出など様々な下流タスクにおいて, われわれのアプローチが現在のSOTA(State-of-the-art)アプローチよりも著しく優れていることを示す。
私たちのコードとモデルはhttps://github.com/wengwanjiang/USDRL.comで公開されています。
関連論文リスト
- Idempotent Unsupervised Representation Learning for Skeleton-Based Action Recognition [13.593511876719367]
教師なし表現学習のための新しい骨格ベース等等化生成モデル(IGM)を提案する。
ベンチマークデータセットであるNTU RGB+DとPKUMMDに関する実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-27T06:29:04Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Self-Supervised Representation Learning with Meta Comprehensive
Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。
提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。
本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文 参考訳(メタデータ) (2024-03-03T15:53:48Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Enhancing Representation Learning on High-Dimensional, Small-Size
Tabular Data: A Divide and Conquer Method with Ensembled VAEs [7.923088041693465]
特徴空間の部分集合の後方部分集合を学習するための軽量なVAEのアンサンブルを, 新規な分割コンカレントアプローチで結合後部分集合に集約する。
このアプローチは推論時に部分的な機能に対して堅牢であることを示し、ほとんどの機能が欠落していても、パフォーマンスの劣化がほとんどないことを示します。
論文 参考訳(メタデータ) (2023-06-27T17:55:31Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。