論文の概要: M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition
- arxiv url: http://arxiv.org/abs/2603.09367v1
- Date: Tue, 10 Mar 2026 08:45:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.160616
- Title: M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition
- Title(参考訳): M3GCLR:スケルトンに基づくアクション認識のためのマルチビューミニ・マックス無限スケルトンデータゲームコントラスト学習
- Authors: Yanshan Li, Ke Ma, Miaomiao Wei, Linhui Dai,
- Abstract要約: 骨格に基づく行動認識(M3GCLR)のためのマルチビュー・ミニマックス無限骨格データゲームコントラスト学習を提案する。
我々は,多視点回転拡張により通常のデータペアを生成し,時間平均入力を中性アンカーとして採用し,構造的アライメントを実現する。
次に、よりリッチなアクション識別情報をマイニングするようモデルに促すために、強敵のミニマックススケルトンデータゲームを構築する。
- 参考スコア(独自算出の注目度): 8.909010524191368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, contrastive learning has drawn significant attention as an effective approach to reducing reliance on labeled data. However, existing methods for self-supervised skeleton-based action recognition still face three major limitations: insufficient modeling of view discrepancies, lack of effective adversarial mechanisms, and uncontrollable augmentation perturbations. To tackle these issues, we propose the Multi-view Mini-Max infinite skeleton-data Game Contrastive Learning for skeleton-based action Recognition (M3GCLR), a game-theoretic contrastive framework. First, we establish the Infinite Skeleton-data Game (ISG) model and the ISG equilibrium theorem, and further provide a rigorous proof, enabling mini-max optimization based on multi-view mutual information. Then, we generate normal-extreme data pairs through multi-view rotation augmentation and adopt temporally averaged input as a neutral anchor to achieve structural alignment, thereby explicitly characterizing perturbation strength. Next, leveraging the proposed equilibrium theorem, we construct a strongly adversarial mini-max skeleton-data game to encourage the model to mine richer action-discriminative information. Finally, we introduce the dual-loss equilibrium optimizer to optimize the game equilibrium, allowing the learning process to maximize action-relevant information while minimizing encoding redundancy, and we prove the equivalence between the proposed optimizer and the ISG model. Extensive Experiments show that M3GCLR achieves three-stream 82.1%, 85.8% accuracy on NTU RGB+D 60 (X-Sub, X-View) and 72.3%, 75.0% accuracy on NTU RGB+D 120 (X-Sub, X-Set). On PKU-MMD Part I and II, it attains 89.1%, 45.2% in three-stream respectively, all results matching or outperforming state-of-the-art performance. Ablation studies confirm the effectiveness of each component.
- Abstract(参考訳): 近年,ラベル付きデータへの依存を減らすための効果的なアプローチとして,コントラスト学習が注目されている。
しかし、既存の自己監督型骨格に基づく行動認識法は、視差の不十分なモデリング、効果的な対向機構の欠如、制御不能な拡張摂動の3つの大きな限界に直面している。
これらの課題に対処するために,ゲーム理論のコントラストフレームワークであるM3GCLR(Multi-view Mini-Max infinite skeleton-data Game Contrastive Learning)を提案する。
まず,Infinite Skeleton-data Game(ISG)モデルとISG平衡定理を確立し,さらに多視点相互情報に基づくミニマックス最適化を可能にする厳密な証明を行う。
次に,多視点回転拡大による正規極端データペアを生成し,時間平均入力を中性アンカーとして採用して構造的アライメントを実現し,摂動強度を明確に特徴付ける。
次に、提案した平衡定理を利用して、よりリッチな行動識別情報をマイニングするために、強敵対的なミニマックススケルトンデータゲームを構築する。
最後に,ゲーム平衡を最適化するために,デュアルロス平衡オプティマイザを導入し,符号化冗長性を最小化しながら動作関連情報を最大化し,提案したオプティマイザとISGモデルとの等価性を証明した。
実験の結果、M3GCLRはNTU RGB+D 60(X-Sub, X-View)で3ストリーム82.1%、85.8%、NTU RGB+D 120(X-Sub, X-Set)で72.3%、75.0%の精度を達成した。
PKU-MMD Part I と II では、それぞれ89.1%、45.2%を3ストリームで達成し、結果の整合性や性能が向上した。
アブレーション研究は各成分の有効性を確認している。
関連論文リスト
- Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory [101.2076718776139]
複雑な実環境において,1000フレーム以上のコヒーレントな視覚記憶を維持することのできる,堅牢な対話型世界モデルを提案する。
我々は,歴史的潜水剤を固定予算の幾何学的表現に蒸留するpose-free Memory (HPMC)を導入する。
また,連続動作を三状態論理に識別する不確実性認識型アクションラベルモジュールを提案する。
論文 参考訳(メタデータ) (2026-02-02T17:52:56Z) - DoGCLR: Dominance-Game Contrastive Learning Network for Skeleton-Based Action Recognition [8.909010524191368]
既存の骨格に基づく行動認識のための自己教師付きコントラスト学習法は、しばしば全ての骨格領域を均一に処理する。
本稿では,骨格型行動認識(DoGCLR)のためのドミナンスゲームコントラスト学習ネットワークを提案する。
DoGCLRは、正と負のサンプルの構成を動的ドミナンスゲームとしてモデル化し、両方のサンプルタイプが相互作用し、セマンティックな保存と識別力のバランスをとる平衡に達する。
論文 参考訳(メタデータ) (2025-11-18T06:32:21Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Muon: Training and Trade-offs with Latent Attention and MoE [4.500362688166346]
小型・中型デコーダ(30M-200Mパラメータ)のみで変圧器を訓練するためのMuonの総合的理論的・実証的研究について述べる。
厳密な理論解析として, (i) 標準仮定による収束率のショーイング, (ii) 勾配の爆発を防止するスペクトル正則化特性, (iii) スティーフェル多様体上の自然勾配降下への接続, (iv) スペクトルノルムによる最も急勾配降下への同値性などを挙げる。
論文 参考訳(メタデータ) (2025-09-29T07:51:06Z) - DiTMoS: Delving into Diverse Tiny-Model Selection on Microcontrollers [34.282971510732736]
我々は、セレクタ分類器アーキテクチャを備えた新しいDNNトレーニングおよび推論フレームワークであるDiTMoSを紹介する。
弱いモデルの合成は高い多様性を示すことができ、それらの結合は精度の上限を大幅に高めることができる。
我々は,Nucleo STM32F767ZIボード上にDiTMoSをデプロイし,人間の活動認識,キーワードスポッティング,感情認識のための時系列データセットに基づいて評価する。
論文 参考訳(メタデータ) (2024-03-14T02:11:38Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - DMMG: Dual Min-Max Games for Self-Supervised Skeleton-Based Action
Recognition [25.505897191085353]
そこで本研究では,DMMG(Dual Min-Max Games)を用いた自己教師型骨格行動認識手法を提案する。
我々のDMMGは、視点変化 min-max ゲームとエッジ摂動 min-max ゲームからなる。
提案手法は,広く使用されているNTU-RGB+DおよびNTU120-RGB+Dデータセットにおいて,様々な評価プロトコルにより優れた結果が得られる。
論文 参考訳(メタデータ) (2023-02-22T08:53:11Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。