論文の概要: Less is More: Decoder-Free Masked Modeling for Efficient Skeleton Representation Learning
- arxiv url: http://arxiv.org/abs/2603.10648v2
- Date: Thu, 12 Mar 2026 04:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.475071
- Title: Less is More: Decoder-Free Masked Modeling for Efficient Skeleton Representation Learning
- Title(参考訳): Decoder-free Masked Modeling for Efficient Skeleton Representation Learning
- Authors: Jeonghyeok Do, Yun Chen, Geunhyuk Youk, Munchurl Kim,
- Abstract要約: 骨格に基づく行動表現学習は、コントラスト学習(CL)からマスケッドオートエンコーダ(MAE)へと進化した
本稿では,共有エンコーダによるコントラスト学習とマスクモデリングを調和させる新しい統合フレームワークであるSLiMを提案する。
我々は、SLiMが、すべてのダウンストリームプロトコルにおける最先端のパフォーマンスを一貫して達成していることを示します。
- 参考スコア(独自算出の注目度): 28.87004127483584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The landscape of skeleton-based action representation learning has evolved from Contrastive Learning (CL) to Masked Auto-Encoder (MAE) architectures. However, each paradigm faces inherent limitations: CL often overlooks fine-grained local details, while MAE is burdened by computationally heavy decoders. Moreover, MAE suffers from severe computational asymmetry -- benefiting from efficient masking during pre-training but requiring exhaustive full-sequence processing for downstream tasks. To resolve these bottlenecks, we propose SLiM (Skeleton Less is More), a novel unified framework that harmonizes masked modeling with contrastive learning via a shared encoder. By eschewing the reconstruction decoder, SLiM not only eliminates computational redundancy but also compels the encoder to capture discriminative features directly. SLiM is the first framework with decoder-free masked modeling of representative learning. Crucially, to prevent trivial reconstruction arising from high skeletal-temporal correlation, we introduce semantic tube masking, alongside skeletal-aware augmentations designed to ensure anatomical consistency across diverse temporal granularities. Extensive experiments demonstrate that SLiM consistently achieves state-of-the-art performance across all downstream protocols. Notably, our method delivers this superior accuracy with exceptional efficiency, reducing inference computational cost by 7.89x compared to existing MAE methods.
- Abstract(参考訳): 骨格に基づく行動表現学習の展望は、Contrastive Learning (CL) から Masked Auto-Encoder (MAE) アーキテクチャへと進化してきた。
しかし、それぞれのパラダイムは固有の制限に直面しており、CLは細粒度の局所的な詳細を見落とし、MAEは計算的に重いデコーダによって負担される。
さらに、MAEは厳しい計算非対称性に悩まされており、トレーニング前の効率的なマスキングの恩恵を受けているが、下流タスクには徹底的なフルシーケンス処理が必要である。
これらのボトルネックを解決するために,共有エンコーダを用いたマスキングとコントラスト学習を調和させる新しい統合フレームワークであるSLiM(Skeleton Less is More)を提案する。
再構成デコーダを省略することにより、SLiMは計算冗長性を除去するだけでなく、エンコーダを補完して識別的特徴を直接キャプチャする。
SLiMは、デコーダのない代表学習のマスク付きモデリングのための最初のフレームワークである。
重要なこととして,高度の骨格・時間的相関から生じる自明な再構築を防止するため,様々な時間的粒度の解剖学的整合性を確保するために,骨格・認識の増強とともに意味管マスキングを導入する。
大規模な実験により、SLiMはすべてのダウンストリームプロトコルにおける最先端のパフォーマンスを一貫して達成している。
特に,提案手法は,従来のMAE法に比べて推算計算コストを7.89倍に抑えることができる。
関連論文リスト
- Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Understanding Masked Autoencoders From a Local Contrastive Perspective [80.57196495601826]
Masked AutoEncoder (MAE)は、シンプルだが効果的なマスキングと再構築戦略によって、自己指導型学習の分野に革命をもたらした。
そこで我々は,MaEの再構成的側面とコントラスト的側面の両方を解析するために,ローカルコントラストMAEと呼ばれる新しい経験的枠組みを導入する。
論文 参考訳(メタデータ) (2023-10-03T12:08:15Z) - CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - Rethinking Attention Mechanism in Time Series Classification [6.014777261874646]
我々は、フレキシブル・マルチヘッド・リニア・アテンション(FMLA)を提案することにより、アテンション機構の効率性と性能を向上する。
本稿では,時系列におけるノイズの影響を低減し,FMLAの冗長性を低減できる簡易だが効果的なマスク機構を提案する。
85のUCR2018データセットを用いて、このアルゴリズムを11のよく知られたデータセットと比較し、このアルゴリズムがトップ1の精度で同等の性能を持つことを示す。
論文 参考訳(メタデータ) (2022-07-14T07:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。