Fugu-MT 論文翻訳(概要): DMMG: Dual Min-Max Games for Self-Supervised Skeleton-Based Action Recognition

論文の概要: DMMG: Dual Min-Max Games for Self-Supervised Skeleton-Based Action Recognition

arxiv url: http://arxiv.org/abs/2302.12007v1
Date: Wed, 22 Feb 2023 08:53:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-24 15:06:55.511359
Title: DMMG: Dual Min-Max Games for Self-Supervised Skeleton-Based Action Recognition
Title（参考訳）: dmmg:自己教師付きスケルトンに基づくアクション認識のためのデュアルmin-maxゲーム
Authors: Shannan Guan, Xin Yu, Wei Huang, Gengfa Fang, Haiyan Lu
Abstract要約: そこで本研究では,DMMG(Dual Min-Max Games)を用いた自己教師型骨格行動認識手法を提案する。我々のDMMGは、視点変化 min-max ゲームとエッジ摂動 min-max ゲームからなる。提案手法は,広く使用されているNTU-RGB+DおよびNTU120-RGB+Dデータセットにおいて,様々な評価プロトコルにより優れた結果が得られる。
参考スコア（独自算出の注目度）: 25.505897191085353
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we propose a new Dual Min-Max Games (DMMG) based self-supervised skeleton action recognition method by augmenting unlabeled data in a contrastive learning framework. Our DMMG consists of a viewpoint variation min-max game and an edge perturbation min-max game. These two min-max games adopt an adversarial paradigm to perform data augmentation on the skeleton sequences and graph-structured body joints, respectively. Our viewpoint variation min-max game focuses on constructing various hard contrastive pairs by generating skeleton sequences from various viewpoints. These hard contrastive pairs help our model learn representative action features, thus facilitating model transfer to downstream tasks. Moreover, our edge perturbation min-max game specializes in building diverse hard contrastive samples through perturbing connectivity strength among graph-based body joints. The connectivity-strength varying contrastive pairs enable the model to capture minimal sufficient information of different actions, such as representative gestures for an action while preventing the model from overfitting. By fully exploiting the proposed DMMG, we can generate sufficient challenging contrastive pairs and thus achieve discriminative action feature representations from unlabeled skeleton data in a self-supervised manner. Extensive experiments demonstrate that our method achieves superior results under various evaluation protocols on widely-used NTU-RGB+D and NTU120-RGB+D datasets.
Abstract（参考訳）: 本研究では,新しいDual Min-Max Games (DMMG) を用いた自己教師型スケルトン行動認識手法を提案する。我々のDMMGは、視点変化 min-max ゲームとエッジ摂動 min-max ゲームからなる。これら2つのmin-maxゲームは、それぞれスケルトンシーケンスとグラフ構造化ボディジョイントでデータ拡張を行うための逆パラダイムを採用している。視点変動ミニマックスゲームは,様々な視点からスケルトン列を生成することで,様々なハードコントラストペアを構築することに焦点を当てている。これらの厳密な対照的なペアは、モデルが代表的なアクション機能を学ぶのに役立つため、下流タスクへのモデル転送が容易になります。さらに, エッジ摂動ミニマックスゲームは, グラフベースボディージョイント間の接続強度を摂動させることにより, 多様なハードコントラストサンプルを構築することに特化したゲームである。接続性が強く変化するコントラストペアは、モデルが過剰にフィットするのを防ぎながら、アクションの代表的なジェスチャーのような、異なるアクションの最小限の情報をキャプチャできる。提案するdmmgを十分に活用することにより,十分な難解なコントラストペアを生成し,ラベル付きスケルトンデータからの識別的行動特徴表現を自己教師付きで実現する。広範に使われているNTU-RGB+DデータセットとNTU120-RGB+Dデータセットの様々な評価プロトコルにおいて,本手法が優れた結果を得ることを示す。

関連論文リスト

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
SkeletonX: Data-Efficient Skeleton-based Action Recognition via Cross-sample Feature Aggregation [34.65359766672547]
本稿では,最小限のデータによる効率的な適応を実現するために,ワンショットおよび限定的な学習環境について検討する。我々は、既存のGCNベースのスケルトンアクション認識器とシームレスに統合される軽量なトレーニングパイプラインであるSkeletonXを紹介する。従来の最先端の手法を1ショット設定で上回り、パラメータの1/10しかなく、FLOPもはるかに少ない。
論文参考訳（メタデータ） (2025-04-16T04:01:42Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
Adversarial Robustness in RGB-Skeleton Action Recognition: Leveraging Attention Modality Reweighter [32.64004722423187]
RGB-スケルトン行動認識モデルのロバスト性を改善する方法について述べる。本稿では,formatwordAMR(formatwordAttention-based formatwordModality formatwordReweighter)を提案する。私たちのAMRはプラグアンドプレイで、マルチモーダルモデルと簡単に統合できます。
論文参考訳（メタデータ） (2024-07-29T13:15:51Z)
MM-GTUNets: Unified Multi-Modal Graph Deep Learning for Brain Disorders Prediction [8.592259720470697]
脳障害予測のためのマルチモーダルグラフ深層学習フレームワークMM-GTUNetsを提案する。本稿では,報酬システムを用いて集団グラフを適応的に構築するMRRL(Modality Reward Representation Learning)を提案する。また,ACMGL(Adaptive Cross-Modal Graph Learning)を提案する。
論文参考訳（メタデータ） (2024-06-20T16:14:43Z)
An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文参考訳（メタデータ） (2024-06-02T06:53:01Z)
Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。 HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文参考訳（メタデータ） (2023-05-23T01:24:15Z)
Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文参考訳（メタデータ） (2022-09-26T01:30:43Z)
Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文参考訳（メタデータ） (2022-07-17T07:05:39Z)
A Dual-Masked Auto-Encoder for Robust Motion Capture with Spatial-Temporal Skeletal Token Completion [13.88656793940129]
本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
論文参考訳（メタデータ） (2022-07-15T10:00:43Z)
Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文参考訳（メタデータ） (2021-08-15T02:21:01Z)
Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。 2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。 3つの大規模データセットについて広範な実験を行った。
論文参考訳（メタデータ） (2021-08-10T09:25:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。