論文の概要: Shap-Mix: Shapley Value Guided Mixing for Long-Tailed Skeleton Based Action Recognition
- arxiv url: http://arxiv.org/abs/2407.12312v1
- Date: Wed, 17 Jul 2024 04:25:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 18:27:38.688882
- Title: Shap-Mix: Shapley Value Guided Mixing for Long-Tailed Skeleton Based Action Recognition
- Title(参考訳): Shap-Mix:長尺骨格を用いた行動認識のためのシェープ値誘導混合
- Authors: Jiahang Zhang, Lilang Lin, Jiaying Liu,
- Abstract要約: 長い尾の学習は、重要な時空間運動パターンの欠如により、準最適である。
そこで我々は,末尾カテゴリーの代表動作パターンをマイニングすることで長尾学習を改善するShap-Mixを提案する。
我々の実験では、長い尾とバランスの取れた環境下での顕著なパフォーマンス改善が示されています。
- 参考スコア(独自算出の注目度): 14.849935174081034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world scenarios, human actions often fall into a long-tailed distribution. It makes the existing skeleton-based action recognition works, which are mostly designed based on balanced datasets, suffer from a sharp performance degradation. Recently, many efforts have been madeto image/video long-tailed learning. However, directly applying them to skeleton data can be sub-optimal due to the lack of consideration of the crucial spatial-temporal motion patterns, especially for some modality-specific methodologies such as data augmentation. To this end, considering the crucial role of the body parts in the spatially concentrated human actions, we attend to the mixing augmentations and propose a novel method, Shap-Mix, which improves long-tailed learning by mining representative motion patterns for tail categories. Specifically, we first develop an effective spatial-temporal mixing strategy for the skeleton to boost representation quality. Then, the employed saliency guidance method is presented, consisting of the saliency estimation based on Shapley value and a tail-aware mixing policy. It preserves the salient motion parts of minority classes in mixed data, explicitly establishing the relationships between crucial body structure cues and high-level semantics. Extensive experiments on three large-scale skeleton datasets show our remarkable performance improvement under both long-tailed and balanced settings. Our project is publicly available at: https://jhang2020.github.io/Projects/Shap-Mix/Shap-Mix.html.
- Abstract(参考訳): 現実のシナリオでは、人間の行動は長い尾の分布に陥ることが多い。
既存のスケルトンベースのアクション認識作業は、ほとんどがバランスの取れたデータセットに基づいて設計されており、パフォーマンスの急激な低下に悩まされている。
近年,画像・ビデオの長期学習への取り組みが盛んに行われている。
しかし、特にデータ拡張のようなモダリティ特異的な手法では、重要な時空間運動パターンが考慮されていないため、骨格データに直接適用することは準最適である。
この目的のために, 空間集中型ヒト行動における身体部分の役割を考慮し, 混合促進に参画し, テールカテゴリーの代表動作パターンをマイニングすることで, 長期学習を改善する新手法Shap-Mixを提案する。
具体的には、まず、表現品質を高めるために、スケルトンを効果的に時空間混合する戦略を開発する。
次に、シェープリー値とテール・アウェア・ミキシング・ポリシーに基づいて、サリエンシ推定と、サリエンシ推定を併用したサリエンシ誘導手法を提案する。
マイノリティクラスの健全な動作部分を混合データで保存し、重要な身体構造と高レベルの意味論の関係を明確に確立する。
大規模な3つのスケルトンデータセットの大規模な実験は、長い尾とバランスの取れた設定の両方で顕著なパフォーマンス改善を示している。
私たちのプロジェクトは、https://jhang2020.github.io/Projects/Shap-Mix/Shap-Mix.htmlで公開されています。
関連論文リスト
- Long-Tailed Object Detection Pre-training: Dynamic Rebalancing Contrastive Learning with Dual Reconstruction [28.359463356384463]
2DRCL(Dynamic Rebalance Contrastive Learning with Dual Reconstruction)と呼ばれる,オブジェクト検出のための新たな事前学習フレームワークを導入する。
提案手法は,グローバルな文脈意味論と詳細な局所パターンの両方を捉えることによって,事前学習とオブジェクト検出を一致させる,ホロスティック・ローカル・コントラスト学習機構に基づいている。
COCOおよびLVIS v1.0データセットの実験により,本手法の有効性,特に末尾クラスにおけるmAP/APスコアの改善が示された。
論文 参考訳(メタデータ) (2024-11-14T13:59:01Z) - Granularity Matters in Long-Tail Learning [62.30734737735273]
より粒度の細かいデータセットは、データの不均衡の影響を受けにくい傾向があります。
既存のクラスと視覚的に類似したオープンセット補助クラスを導入し、頭と尾の両方の表現学習を強化することを目的とした。
補助授業の圧倒的な存在がトレーニングを混乱させるのを防ぐために,近隣のサイレンシング障害を導入する。
論文 参考訳(メタデータ) (2024-10-21T13:06:21Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Multiscale Residual Learning of Graph Convolutional Sequence Chunks for
Human Motion Prediction [23.212848643552395]
時間的および空間的依存関係の学習による人間の動作予測のための新しい手法を提案する。
提案手法は,動作予測のためのシーケンス情報を効果的にモデル化し,他の手法よりも優れ,新しい最先端の手法を設定できる。
論文 参考訳(メタデータ) (2023-08-31T15:23:33Z) - One-Shot Action Recognition via Multi-Scale Spatial-Temporal Skeleton
Matching [77.6989219290789]
ワンショットスケルトン行動認識は、単一のトレーニングサンプルでスケルトン行動認識モデルを学ぶことを目的としている。
本稿では,マルチスケールな時空間特徴マッチングによる骨格行動認識を行う新しい一発骨格行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T11:52:10Z) - Feature Weaken: Vicinal Data Augmentation for Classification [1.7013938542585925]
モデルトレーニングと同一のコサイン類似性を持つビジナルデータ分布を構築するためにFeature Weakenを用いている。
この研究は、モデルの分類性能と一般化を改善するだけでなく、モデルの訓練を安定させ、モデルの収束を加速させる。
論文 参考訳(メタデータ) (2022-11-20T11:00:23Z) - Constructing Balance from Imbalance for Long-tailed Image Recognition [50.6210415377178]
多数派(頭)クラスと少数派(尾)クラスの不均衡は、データ駆動のディープニューラルネットワークを著しく歪ませる。
従来の手法では、データ分散、特徴空間、モデル設計の観点からデータ不均衡に対処していた。
ラベル空間を段階的に調整し,ヘッドクラスとテールクラスを分割することで,簡潔なパラダイムを提案する。
提案モデルでは,特徴評価手法も提供し,長期的特徴学習の道を開く。
論文 参考訳(メタデータ) (2022-08-04T10:22:24Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。