論文の概要: DMMG: Dual Min-Max Games for Self-Supervised Skeleton-Based Action
Recognition
- arxiv url: http://arxiv.org/abs/2302.12007v1
- Date: Wed, 22 Feb 2023 08:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 15:06:55.511359
- Title: DMMG: Dual Min-Max Games for Self-Supervised Skeleton-Based Action
Recognition
- Title(参考訳): dmmg:自己教師付きスケルトンに基づくアクション認識のためのデュアルmin-maxゲーム
- Authors: Shannan Guan, Xin Yu, Wei Huang, Gengfa Fang, Haiyan Lu
- Abstract要約: そこで本研究では,DMMG(Dual Min-Max Games)を用いた自己教師型骨格行動認識手法を提案する。
我々のDMMGは、視点変化 min-max ゲームとエッジ摂動 min-max ゲームからなる。
提案手法は,広く使用されているNTU-RGB+DおよびNTU120-RGB+Dデータセットにおいて,様々な評価プロトコルにより優れた結果が得られる。
- 参考スコア(独自算出の注目度): 25.505897191085353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a new Dual Min-Max Games (DMMG) based
self-supervised skeleton action recognition method by augmenting unlabeled data
in a contrastive learning framework. Our DMMG consists of a viewpoint variation
min-max game and an edge perturbation min-max game. These two min-max games
adopt an adversarial paradigm to perform data augmentation on the skeleton
sequences and graph-structured body joints, respectively. Our viewpoint
variation min-max game focuses on constructing various hard contrastive pairs
by generating skeleton sequences from various viewpoints. These hard
contrastive pairs help our model learn representative action features, thus
facilitating model transfer to downstream tasks. Moreover, our edge
perturbation min-max game specializes in building diverse hard contrastive
samples through perturbing connectivity strength among graph-based body joints.
The connectivity-strength varying contrastive pairs enable the model to capture
minimal sufficient information of different actions, such as representative
gestures for an action while preventing the model from overfitting. By fully
exploiting the proposed DMMG, we can generate sufficient challenging
contrastive pairs and thus achieve discriminative action feature
representations from unlabeled skeleton data in a self-supervised manner.
Extensive experiments demonstrate that our method achieves superior results
under various evaluation protocols on widely-used NTU-RGB+D and NTU120-RGB+D
datasets.
- Abstract(参考訳): 本研究では,新しいDual Min-Max Games (DMMG) を用いた自己教師型スケルトン行動認識手法を提案する。
我々のDMMGは、視点変化 min-max ゲームとエッジ摂動 min-max ゲームからなる。
これら2つのmin-maxゲームは、それぞれスケルトンシーケンスとグラフ構造化ボディジョイントでデータ拡張を行うための逆パラダイムを採用している。
視点変動ミニマックスゲームは,様々な視点からスケルトン列を生成することで,様々なハードコントラストペアを構築することに焦点を当てている。
これらの厳密な対照的なペアは、モデルが代表的なアクション機能を学ぶのに役立つため、下流タスクへのモデル転送が容易になります。
さらに, エッジ摂動ミニマックスゲームは, グラフベースボディージョイント間の接続強度を摂動させることにより, 多様なハードコントラストサンプルを構築することに特化したゲームである。
接続性が強く変化するコントラストペアは、モデルが過剰にフィットするのを防ぎながら、アクションの代表的なジェスチャーのような、異なるアクションの最小限の情報をキャプチャできる。
提案するdmmgを十分に活用することにより,十分な難解なコントラストペアを生成し,ラベル付きスケルトンデータからの識別的行動特徴表現を自己教師付きで実現する。
広範に使われているNTU-RGB+DデータセットとNTU120-RGB+Dデータセットの様々な評価プロトコルにおいて,本手法が優れた結果を得ることを示す。
関連論文リスト
- GSDC Transformer: An Efficient and Effective Cue Fusion for Monocular
Multi-Frame Depth Estimation [7.158264965010546]
単分子多フレーム深度推定におけるキュー融合の効率的な構成法を提案する。
我々は、正確な形状に頼ることなく、シーン特性をスーパートークンの形で表現する。
本手法は,KITTIデータセット上での高速核融合速度で最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-29T08:43:16Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - A Dual-Masked Auto-Encoder for Robust Motion Capture with
Spatial-Temporal Skeletal Token Completion [13.88656793940129]
本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。
次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。
重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
論文 参考訳(メタデータ) (2022-07-15T10:00:43Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Mutual Graph Learning for Camouflaged Object Detection [31.422775969808434]
主な課題は、前景の物体と背景の環境との固有の類似性によって、深いモデルによって抽出された特徴が区別できないことである。
我々は,正規格子からグラフ領域への従来の相互学習の考え方を一般化する,新しい相互グラフ学習モデルを設計する。
すべてのタスク間インタラクションをモデリングするために共有関数を使用するほとんどの相互学習アプローチとは対照的に、mglは異なる補完関係を扱うための型付き関数を備えている。
論文 参考訳(メタデータ) (2021-04-03T10:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。