論文の概要: CPEP: Contrastive Pose-EMG Pre-training Enhances Gesture Generalization on EMG Signals
- arxiv url: http://arxiv.org/abs/2509.04699v2
- Date: Mon, 08 Sep 2025 06:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.398724
- Title: CPEP: Contrastive Pose-EMG Pre-training Enhances Gesture Generalization on EMG Signals
- Title(参考訳): CPEP: 対照的な Pose-EMG 事前学習によるEMG信号のジェスチャ一般化
- Authors: Wenhui Cui, Christopher Sandino, Hadi Pouransari, Ran Liu, Juri Minxha, Ellen Zippi, Aman Verma, Anna Sedlackova, Erdrin Azemi, Behrooz Mahasseni,
- Abstract要約: 本稿では,EMG と表現の整合性を示すコントラスト型 Pose-EMG 事前学習フレームワークを提案する。
高品質かつポーズ型表現を生成するエンコーダEMGを学習する。
本モデルでは,Emg2poseベンチマークモデルにおいて,非分布型ジェスチャー分類では最大21%,非分布型ジェスチャー分類では72%,非分布型ジェスチャー分類では最大21%の精度で性能が向上する。
- 参考スコア(独自算出の注目度): 9.194046204626327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand gesture classification using high-quality structured data such as videos, images, and hand skeletons is a well-explored problem in computer vision. Leveraging low-power, cost-effective biosignals, e.g. surface electromyography (sEMG), allows for continuous gesture prediction on wearables. In this paper, we demonstrate that learning representations from weak-modality data that are aligned with those from structured, high-quality data can improve representation quality and enables zero-shot classification. Specifically, we propose a Contrastive Pose-EMG Pre-training (CPEP) framework to align EMG and pose representations, where we learn an EMG encoder that produces high-quality and pose-informative representations. We assess the gesture classification performance of our model through linear probing and zero-shot setups. Our model outperforms emg2pose benchmark models by up to 21% on in-distribution gesture classification and 72% on unseen (out-of-distribution) gesture classification.
- Abstract(参考訳): ビデオ、画像、手骨格などの高品質な構造化データを用いた手動作分類は、コンピュータビジョンにおいてよく研究されている問題である。
低消費電力で費用効率のよいバイオシグナー、例えば表面筋電図(sEMG)を活用することで、ウェアラブル上で連続的なジェスチャー予測が可能になる。
本稿では、構造化された高品質なデータと整合した弱モダリティデータからの学習表現が表現品質を向上し、ゼロショット分類を可能にすることを実証する。
具体的には,MPG事前学習(Contrastive Pose-EMG Pre-training,CPEP)フレームワークを提案する。
線形探索とゼロショット設定により,モデルのジェスチャー分類性能を評価する。
本モデルでは,Emg2poseベンチマークモデルにおいて,非分布型ジェスチャー分類では最大21%,非分布型ジェスチャー分類では72%,非分布型ジェスチャー分類では最大21%の精度で性能が向上する。
関連論文リスト
- SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - Subject Representation Learning from EEG using Graph Convolutional Variational Autoencoders [20.364067310176054]
GC-VASEはグラフ畳み込みに基づく変分オートエンコーダであり、脳波データからの主観的表現学習にコントラスト学習を利用する。
本手法は,主観的識別に適した分割ラテント空間アーキテクチャを用いて,頑健な主観的潜在表現をうまく学習する。
論文 参考訳(メタデータ) (2025-01-13T17:29:31Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - EMGTFNet: Fuzzy Vision Transformer to decode Upperlimb sEMG signals for
Hand Gestures Recognition [0.1611401281366893]
本稿では,手動ジェスチャー認識を行うために,EMGTFNetと呼ばれるファジィニューラルブロック(FNB)を用いた視覚変換器(ViT)アーキテクチャを提案する。
提案モデルの精度は49種類の手ジェスチャーからなるNinaProデータベースを用いて検証した。
論文 参考訳(メタデータ) (2023-09-23T18:55:26Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z) - Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via
Feature Distillation [42.37533586611174]
Masked Image Modeling (MIM)は、非常に優れた微調整性能を持つ表現を学習する。
本稿では, 簡単な後処理により, 事前学習手法の微調整性能を著しく向上できることを示す。
論文 参考訳(メタデータ) (2022-05-27T17:59:36Z) - Measuring Self-Supervised Representation Quality for Downstream
Classification using Discriminative Features [56.89813105411331]
我々は,SimCLR,SwaV,MoCo,BYOL,DINO,SimSiam,VICReg,Barlow Twinsといった最先端の自己教師型モデルの表現空間について検討した。
本稿では,標本が誤分類される可能性を確実に予測できる教師なしスコアである自己監督表現品質スコア(Qスコア)を提案する。
Q-Score正規化による微調整により、SSLモデルの線形探索精度はImageNet-100で5.8%、ImageNet-1Kで3.7%向上する。
論文 参考訳(メタデータ) (2022-03-03T17:48:23Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Unsupervised machine learning via transfer learning and k-means
clustering to classify materials image data [0.0]
本稿では,画像分類のための高性能な教師なし機械学習システムの構築,利用,評価について述べる。
我々は、自然画像のImageNetデータセット上に事前訓練されたVGG16畳み込みニューラルネットワークを用いて、各マイクログラフの特徴表現を抽出する。
このアプローチは、99.4% pm 0.16%$の精度を実現し、結果として得られたモデルは、再トレーニングせずに、新しい画像の分類に使うことができる。
論文 参考訳(メタデータ) (2020-07-16T14:36:04Z) - Few-Shot Relation Learning with Attention for EEG-based Motor Imagery
Classification [11.873435088539459]
脳波(EEG)信号に基づく脳-コンピュータインタフェース(BCI)が注目されている。
運動画像(MI)データは、リハビリテーションや自律運転のシナリオに使用することができる。
脳波に基づくBCIシステムにはMI信号の分類が不可欠である。
論文 参考訳(メタデータ) (2020-03-03T02:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。