論文の概要: DeSPITE: Exploring Contrastive Deep Skeleton-Pointcloud-IMU-Text Embeddings for Advanced Point Cloud Human Activity Understanding
- arxiv url: http://arxiv.org/abs/2506.13897v2
- Date: Fri, 20 Jun 2025 14:16:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 12:57:34.504478
- Title: DeSPITE: Exploring Contrastive Deep Skeleton-Pointcloud-IMU-Text Embeddings for Advanced Point Cloud Human Activity Understanding
- Title(参考訳): DeSPITE: 高度なクラウドヒューマンアクティビティ理解のための対照的なDeep Skeleton-Pointcloud-IMU-Text埋め込みの探索
- Authors: Thomas Kreutz, Max Mühlhäuser, Alejandro Sanchez Guinea,
- Abstract要約: DeSPITEはDeep Skeleton-Pointcloud-IMU-Text Embeddingモデルである。
MSR-Action3D と HMPEAR の実験により,DeSPITE は点雲 HAR に対する効果的な事前学習戦略であることを示す。
- 参考スコア(独自算出の注目度): 65.72663487116439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite LiDAR (Light Detection and Ranging) being an effective privacy-preserving alternative to RGB cameras to perceive human activities, it remains largely underexplored in the context of multi-modal contrastive pre-training for human activity understanding (e.g., human activity recognition (HAR), retrieval, or person re-identification (RE-ID)). To close this gap, our work explores learning the correspondence between LiDAR point clouds, human skeleton poses, IMU data, and text in a joint embedding space. More specifically, we present DeSPITE, a Deep Skeleton-Pointcloud-IMU-Text Embedding model, which effectively learns a joint embedding space across these four modalities. At the heart of our empirical exploration, we have combined the existing LIPD and Babel datasets, which enabled us to synchronize data of all four modalities, allowing us to explore the learning of a new joint embedding space. Our experiments demonstrate novel human activity understanding tasks for point cloud sequences enabled through DeSPITE, including Skeleton<->Pointcloud<->IMU matching, retrieval, and temporal moment retrieval. Furthermore, we show that DeSPITE is an effective pre-training strategy for point cloud HAR through experiments in MSR-Action3D and HMPEAR.
- Abstract(参考訳): LiDAR(Light Detection and Ranging)は、人間の活動を理解するためにRGBカメラの代わりに効果的なプライバシー保護機能を備えているが、人間の活動理解のためのマルチモーダルコントラスト事前トレーニング(HAR)、人間活動認識(HAR)、検索、人物再識別(RE-ID)といった文脈では、ほとんど未発見のままである。
このギャップを埋めるために、我々の研究はLiDAR点雲、人間の骨格ポーズ、IMUデータ、および共同埋め込み空間におけるテキストの対応を学習することを模索している。
具体的には,DeSPITEというDeep Skeleton-Pointcloud-IMU-Text Embeddingモデルについて述べる。
経験的探索の中心として、既存のLIPDデータセットとBabelデータセットを組み合わせて、4つのモードのデータを同期させることで、新しい結合埋め込み空間の学習を探索しました。
実験では,DeSPITEによって実現された点雲列に対する,Skeleton<->Pointcloud<->IMUマッチング,検索,時間モーメント検索など,新たな人間の活動理解タスクを実証した。
さらに,DSPITE は MSR-Action3D と HMPEAR の実験を通じて,点雲 HAR に対する効果的な事前学習戦略であることを示す。
関連論文リスト
- Enhancing Inertial Hand based HAR through Joint Representation of Language, Pose and Synthetic IMUs [9.570759294459629]
我々は,制限データの問題に対処するために,新しいマルチモーダル,マルチタスク,コントラストベースのフレームワークアプローチであるMulti$3$Netを提案する。
本手法はウェアラブルHAR性能の向上,特に微妙な活動の認識を目的としている。
論文 参考訳(メタデータ) (2024-06-03T13:28:42Z) - Language-Assisted 3D Scene Understanding [17.663583203177197]
我々は,ポイントクラウド特徴学習(LAST-PCL)のための言語支援アプローチを提案する。
我々は,テキストの先行性を損なうことなく,非冗長性と特徴次元の低減を実現する。
提案手法は意味的に意味のあるポイントクラウドの特徴を学習し、3Dセマンティックセグメンテーション、3Dオブジェクト検出、3Dシーン分類タスクにおける最先端または同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-18T18:54:56Z) - Explore In-Context Learning for 3D Point Cloud Understanding [71.20912026561484]
我々は,特に3Dポイントクラウドにおけるコンテキスト内学習のために設計された,ポイント・イン・コンテキストという新しいフレームワークを紹介した。
一般点サンプリング演算子とタンデムで協調して動作するように慎重に設計したJoint Smplingモジュールを提案する。
提案手法の汎用性と適応性を検証するため,幅広いタスクを扱うための広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-06-14T17:53:21Z) - Open-Vocabulary 3D Detection via Image-level Class and Debiased
Cross-modal Contrastive Learning [62.18197846270103]
現在の点雲検出法では,実世界の開語彙を検出するのが困難である。
画像レベルのクラス管理を用いたオープン語彙3DDETectorであるOV-3DETICを提案する。
論文 参考訳(メタデータ) (2022-07-05T12:13:52Z) - Learning-based Point Cloud Registration for 6D Object Pose Estimation in
the Real World [55.7340077183072]
我々は、ポイントクラウドデータからオブジェクトの6Dポーズを推定するタスクに取り組む。
この課題に対処する最近の学習ベースのアプローチは、合成データセットにおいて大きな成功を収めている。
これらの障害の原因を分析し、ソースとターゲットポイントの雲の特徴分布の違いに遡る。
論文 参考訳(メタデータ) (2022-03-29T07:55:04Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - A Deep Learning Method for Complex Human Activity Recognition Using
Virtual Wearable Sensors [22.923108537119685]
センサに基づくヒューマンアクティビティ認識(HAR)は、現在、複数のアプリケーション領域で研究ホットスポットとなっている。
本研究では,実シーンにおける複雑なHARの深層学習に基づく新しい手法を提案する。
提案手法は驚くほど数イテレーションで収束し、実際のIMUデータセット上で91.15%の精度が得られる。
論文 参考訳(メタデータ) (2020-03-04T03:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。