論文の概要: TxP: Reciprocal Generation of Ground Pressure Dynamics and Activity Descriptions for Improving Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2505.02052v1
- Date: Sun, 04 May 2025 10:07:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.398659
- Title: TxP: Reciprocal Generation of Ground Pressure Dynamics and Activity Descriptions for Improving Human Activity Recognition
- Title(参考訳): TxP:人間活動認識を改善するための地圧ダイナミクスと活動記述の相互生成
- Authors: Lala Shakti Swarup Ray, Lars Krupp, Vitor Fortes Rey, Bo Zhou, Sungho Suh, Paul Lukowicz,
- Abstract要約: 生成基盤モデルを用いて、圧力データを自然言語として解釈するText$times$Pressureモデルを提案する。
TxPは、81,100以上のテキストプレッシャペアを含む、私たちの合成PressLangデータセットでトレーニングされています。
これによりHARのパフォーマンスは、最先端と比較して最大12.4%向上した。
- 参考スコア(独自算出の注目度): 4.249657064343807
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sensor-based human activity recognition (HAR) has predominantly focused on Inertial Measurement Units and vision data, often overlooking the capabilities unique to pressure sensors, which capture subtle body dynamics and shifts in the center of mass. Despite their potential for postural and balance-based activities, pressure sensors remain underutilized in the HAR domain due to limited datasets. To bridge this gap, we propose to exploit generative foundation models with pressure-specific HAR techniques. Specifically, we present a bidirectional Text$\times$Pressure model that uses generative foundation models to interpret pressure data as natural language. TxP accomplishes two tasks: (1) Text2Pressure, converting activity text descriptions into pressure sequences, and (2) Pressure2Text, generating activity descriptions and classifications from dynamic pressure maps. Leveraging pre-trained models like CLIP and LLaMA 2 13B Chat, TxP is trained on our synthetic PressLang dataset, containing over 81,100 text-pressure pairs. Validated on real-world data for activities such as yoga and daily tasks, TxP provides novel approaches to data augmentation and classification grounded in atomic actions. This consequently improved HAR performance by up to 12.4\% in macro F1 score compared to the state-of-the-art, advancing pressure-based HAR with broader applications and deeper insights into human movement.
- Abstract(参考訳): センサーに基づく人間活動認識(HAR)は、慣性計測ユニットと視覚データに重点を置いており、しばしば圧力センサー特有の能力を見落としている。
姿勢とバランスに基づく活動の可能性にもかかわらず、圧力センサは限られたデータセットのためにHARドメインでは未使用のままである。
このギャップを埋めるために,圧力特異的HAR技術を用いた生成基礎モデルを提案する。
具体的には、生成基盤モデルを用いて、圧力データを自然言語として解釈する双方向テキスト$\times$Pressureモデルを提案する。
TxP は,(1) 活動記述を圧力シーケンスに変換する Text2Pressure,(2) 活動記述と動的圧力マップからの分類を生成する Pressure2Text という2つのタスクを遂行する。
CLIPやLLaMA 2 13B Chatといった事前トレーニング済みモデルを活用して、TxPは、81,100以上のテキストプレッシャペアを含む、私たちの合成PressLangデータセットでトレーニングされています。
TxPはヨガや日々のタスクなどの活動のための実世界のデータに基づいて検証され、データ拡張と原子活動に基づく分類に対する新しいアプローチを提供する。
これによりHARの性能は、最先端の圧力ベースのHARよりも最大12.4\%向上し、より広範な応用と人間の動きに対する深い洞察が得られた。
関連論文リスト
- PIM: Physics-Informed Multi-task Pre-training for Improving Inertial Sensor-Based Human Activity Recognition [4.503003860563811]
IMUに基づくヒューマンアクティビティ認識(HAR)のための物理インフォームドマルチタスク事前学習(PIM)フレームワークを提案する。
PIMは、人間の動作の基本的物理的側面の理解に基づいて、プレテキストタスクを生成する。
マクロf1スコアの約10%の利得と,クラスごとのラベル付き例は2~8例に過ぎなかった。
論文 参考訳(メタデータ) (2025-03-23T08:16:01Z) - Predicting Stock Movement with BERTweet and Transformers [0.0]
本稿では,Twitter コーパスに特化して事前学習した BERT の BERTweet の有効性を実証する。
補助的なデータソースを使わずにStocknetデータセット上でMatthews correlation Coefficientの新たなベースラインを設定した。
論文 参考訳(メタデータ) (2025-03-13T23:46:24Z) - Static for Dynamic: Towards a Deeper Understanding of Dynamic Facial Expressions Using Static Expression Data [83.48170683672427]
本稿では,DFERの補完リソースとしてSFERデータを統合した統合型デュアルモーダル学習フレームワークを提案する。
S4Dは、共有トランスフォーマー(ViT)エンコーダデコーダアーキテクチャを用いて、顔画像とビデオに対して、デュアルモーダルな自己教師付き事前トレーニングを採用する。
実験により、S4DはDFERをより深く理解し、新しい最先端のパフォーマンスを設定できることが示された。
論文 参考訳(メタデータ) (2024-09-10T01:57:57Z) - EgoPressure: A Dataset for Hand Pressure and Pose Estimation in Egocentric Vision [69.1005706608681]
EgoPressureは、詳細なタッチ接触と圧力相互作用をキャプチャする、新しいエゴセントリックなデータセットである。
本データセットは,頭部に装着した1台のKinectカメラと静止した7台のKinectカメラで同時に捉えた21人の被験者からの5時間の対話を収録した。
論文 参考訳(メタデータ) (2024-09-03T18:53:32Z) - Text me the data: Generating Ground Pressure Sequence from Textual
Descriptions for HAR [4.503003860563811]
Text-to-Pressure (T2P) は、テキスト記述から地圧シーケンスを生成するために設計されたフレームワークである。
センサデータのベクトル量子化と簡単なテキスト条件付き自己回帰戦略を組み合わせることで,高品質な圧力系列が得られることを示す。
論文 参考訳(メタデータ) (2024-02-22T10:14:59Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Approximating Human-Like Few-shot Learning with GPT-based Compression [55.699707962017975]
我々は、推論中にデータ圧縮を可能にする、人間のような学習能力を備えた生成事前学習モデルを提案する。
本稿では,GPT(Generative Pre-trained Transformer)を用いてコルモゴロフ複雑性を近似する手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T05:22:33Z) - PressureTransferNet: Human Attribute Guided Dynamic Ground Pressure
Profile Transfer using 3D simulated Pressure Maps [7.421780713537146]
PressureTransferNetは、ソースの圧力マップとターゲットの人間属性ベクトルを入力として取り込むエンコーダ・デコーダモデルである。
センサシミュレーションを用いて、さまざまな人的属性と圧力プロファイルを持つ多様なデータセットを作成する。
物理に基づく深層学習モデルを用いて, 合成圧力形状の忠実度を視覚的に確認し, 接地領域での2乗R2乗値0.79を得る。
論文 参考訳(メタデータ) (2023-08-01T13:31:25Z) - PresSim: An End-to-end Framework for Dynamic Ground Pressure Profile
Generation from Monocular Videos Using Physics-based 3D Simulation [8.107762252448195]
人体が受ける地圧は、広汎なセンシングにおいて、人間の活動認識(HAR)にとって貴重な情報源である。
本稿では,人間の活動のビデオからセンサデータを合成し,その労力を大幅に削減する,新しいエンドツーエンドフレームワークPresSimを提案する。
論文 参考訳(メタデータ) (2023-02-01T12:02:04Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。