論文の概要: Towards Efficient General Feature Prediction in Masked Skeleton Modeling
- arxiv url: http://arxiv.org/abs/2509.03609v1
- Date: Wed, 03 Sep 2025 18:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.930494
- Title: Towards Efficient General Feature Prediction in Masked Skeleton Modeling
- Title(参考訳): 仮面骨格モデルにおける汎用的特徴予測の効率化に向けて
- Authors: Shengkai Sun, Zefan Zhang, Jianfeng Dong, Zhiyong Cheng, Xiaojun Chang, Meng Wang,
- Abstract要約: マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
- 参考スコア(独自算出の注目度): 59.46799426434277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in the masked autoencoder (MAE) paradigm have significantly propelled self-supervised skeleton-based action recognition. However, most existing approaches limit reconstruction targets to raw joint coordinates or their simple variants, resulting in computational redundancy and limited semantic representation. To address this, we propose a novel General Feature Prediction framework (GFP) for efficient mask skeleton modeling. Our key innovation is replacing conventional low-level reconstruction with high-level feature prediction that spans from local motion patterns to global semantic representations. Specifically, we introduce a collaborative learning framework where a lightweight target generation network dynamically produces diversified supervision signals across spatial-temporal hierarchies, avoiding reliance on pre-computed offline features. The framework incorporates constrained optimization to ensure feature diversity while preventing model collapse. Experiments on NTU RGB+D 60, NTU RGB+D 120 and PKU-MMD demonstrate the benefits of our approach: Computational efficiency (with 6.2$\times$ faster training than standard masked skeleton modeling methods) and superior representation quality, achieving state-of-the-art performance in various downstream tasks.
- Abstract(参考訳): マスク付きオートエンコーダ(MAE)パラダイムの最近の進歩は、自己監督型骨格に基づく行動認識を著しく推進している。
しかし、既存のほとんどのアプローチは、再構成対象を生の関節座標またはそれらの単純な変種に制限し、計算の冗長性と限定的な意味表現をもたらす。
そこで本研究では,マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
具体的には、軽量なターゲット生成ネットワークが空間的・時間的階層にまたがる多様な監視信号を動的に生成し、事前計算されたオフライン機能に依存しない協調学習フレームワークを提案する。
このフレームワークには制約付き最適化が組み込まれており、モデルの崩壊を防ぎながら機能の多様性を保証する。
NTU RGB+D 60, NTU RGB+D 120, PKU-MMDに対する実験は, 計算効率(標準的なマスク付き骨格モデリング手法よりも6.2$\times$高速なトレーニング)と表現品質の向上, 様々なダウンストリームタスクにおける最先端性能の実現, というアプローチの利点を実証している。
関連論文リスト
- Feature-Space Planes Searcher: A Universal Domain Adaptation Framework for Interpretability and Computational Efficiency [7.889121135601528]
現在の教師なし領域適応法は微調整特徴抽出器に依存している。
領域適応フレームワークとしてFPS(Feature-space Planes Searcher)を提案する。
FPSは最先端の手法と比較して,競争力や性能に優れることを示す。
論文 参考訳(メタデータ) (2025-08-26T05:39:21Z) - Weight-Space Linear Recurrent Neural Networks [0.5937476291232799]
WARP(Weight-space Adaptive Recurrent Prediction)は、重み空間学習を線形反復で統一する強力なフレームワークである。
WARPは、様々な分類タスクにおいて最先端のベースラインと一致しているか、あるいは超越しているかを示す。
論文 参考訳(メタデータ) (2025-06-01T20:13:28Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Spatial Hierarchy and Temporal Attention Guided Cross Masking for Self-supervised Skeleton-based Action Recognition [4.036669828958854]
本研究では,空間的,時間的両面からスケルトン配列にマスキングを適用した階層構造と注意誘導型クロスマスキングフレームワーク(HA-CM)を提案する。
空間グラフでは、双曲空間を用いて関節の区別を維持し、高次元骨格の階層構造を効果的に維持する。
本研究では,高次元空間における距離の収束と大域的視点の欠如に対処するため,従来の距離指標をマスキングのための大域的注意に置き換える。
論文 参考訳(メタデータ) (2024-09-26T15:28:25Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - GPT-ST: Generative Pre-Training of Spatio-Temporal Graph Neural Networks [24.323017830938394]
この作業は、ベースラインとシームレスに統合し、パフォーマンスを向上する事前トレーニングフレームワークを導入することで、課題に対処することを目的としている。
フレームワークは2つの重要な設計に基づいて構築されている。
Apple-to-appleマスクオートエンコーダは、学習時間依存のための事前トレーニングモデルである。
これらのモジュールは、時間内カスタマイズされた表現とセマンティック・クラスタ間関係を捉えるように設計されている。
論文 参考訳(メタデータ) (2023-11-07T02:36:24Z) - LevelSet R-CNN: A Deep Variational Method for Instance Segmentation [79.20048372891935]
現在、多くのアートモデルはMask R-CNNフレームワークに基づいている。
本稿では,両世界の長所を結合したR-CNNを提案する。
我々はCOCOおよびCityscapesデータセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-07-30T17:52:18Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。