論文の概要: MoPFormer: Motion-Primitive Transformer for Wearable-Sensor Activity Recognition
- arxiv url: http://arxiv.org/abs/2505.20744v1
- Date: Tue, 27 May 2025 05:34:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.429468
- Title: MoPFormer: Motion-Primitive Transformer for Wearable-Sensor Activity Recognition
- Title(参考訳): MoPFormer:ウェアラブル・センサ・アクティビティ認識のためのモーションプリミティブ・トランス
- Authors: Hao Zhang, Zhan Zhuang, Xuehao Wang, Xiaodong Yang, Yu Zhang,
- Abstract要約: Motion-Primitive Transformer (MoPFormer)は、慣性計測ユニット信号を意味論的に意味のある動作プリミティブにトークン化することで、解釈性を高める新しいフレームワークである。
MoPFormerは、欠落したプリミティブを再構築するマスクされたモーションモデリングの目的を使って事前トレーニングを行うことができる。
6つのHARベンチマークの実験では、MoPFormerは最先端のメソッドを上回るだけでなく、複数のデータセットをまたいだ一般化も成功している。
- 参考スコア(独自算出の注目度): 10.365848533435251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Activity Recognition (HAR) with wearable sensors is challenged by limited interpretability, which significantly impacts cross-dataset generalization. To address this challenge, we propose Motion-Primitive Transformer (MoPFormer), a novel self-supervised framework that enhances interpretability by tokenizing inertial measurement unit signals into semantically meaningful motion primitives and leverages a Transformer architecture to learn rich temporal representations. MoPFormer comprises two-stages. first stage is to partition multi-channel sensor streams into short segments and quantizing them into discrete "motion primitive" codewords, while the second stage enriches those tokenized sequences through a context-aware embedding module and then processes them with a Transformer encoder. The proposed MoPFormer can be pre-trained using a masked motion-modeling objective that reconstructs missing primitives, enabling it to develop robust representations across diverse sensor configurations. Experiments on six HAR benchmarks demonstrate that MoPFormer not only outperforms state-of-the-art methods but also successfully generalizes across multiple datasets. Most importantly, the learned motion primitives significantly enhance both interpretability and cross-dataset performance by capturing fundamental movement patterns that remain consistent across similar activities regardless of dataset origin.
- Abstract(参考訳): ウェアラブルセンサを用いたヒューマンアクティビティ認識(HAR)は、データ間の一般化に大きく影響する、限定的な解釈可能性によって課題が解決される。
この課題に対処するために,慣性計測ユニット信号を意味論的に意味のある動作プリミティブにトークン化して解釈性を高める,新しい自己教師型フレームワークMoPFormerを提案する。
MoPFormerは2つのステージから構成される。
第1段階は、マルチチャネルセンサーストリームを短いセグメントに分割し、それらを離散的な「モーションプリミティブ」コードワードに量子化し、第2段階は、コンテキスト認識の埋め込みモジュールを通じてトークン化されたシーケンスを濃縮し、Transformerエンコーダで処理する。
提案したMoPFormerは、欠損プリミティブを再構築するマスク付きモーションモデリングの目的を使って事前トレーニングが可能で、多様なセンサー構成で堅牢な表現を開発できる。
6つのHARベンチマークの実験では、MoPFormerは最先端のメソッドを上回るだけでなく、複数のデータセットをまたいだ一般化も成功している。
最も重要なことは、学習されたモーションプリミティブは、データセットの起源に関係なく、類似したアクティビティ間で一貫性のある基本的な動きパターンをキャプチャすることで、解釈可能性とデータセット間のパフォーマンスの両方を著しく向上させる。
関連論文リスト
- Progressive Inertial Poser: Progressive Real-Time Kinematic Chain Estimation for 3D Full-Body Pose from Three IMU Sensors [25.67875816218477]
スパース追跡信号からのフルボディポーズ推定は、環境条件や記録範囲によって制限されない。
従来の作業では、骨盤と下肢にセンサーを追加することや、キージョイントのグローバルな位置を得るために外部視覚センサーに頼ることが困難だった。
仮想現実技術の実用性を向上させるため,頭部と手首に装着した3つの慣性計測ユニット(IMU)センサから得られた慣性データのみを用いて,全身のポーズを推定した。
論文 参考訳(メタデータ) (2025-05-08T15:28:09Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Deep Probabilistic Movement Primitives with a Bayesian Aggregator [4.796643369294991]
運動プリミティブは、限られたデモから始まるロボットの動きを再現する訓練可能なパラメトリックモデルである。
本稿では,上述のすべての操作を符号化し,ベイズ文脈アグリゲータを用いるディープ・ムーブメント・プリミティブ・アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-11T09:34:15Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。