論文の概要: RELI11D: A Comprehensive Multimodal Human Motion Dataset and Method
- arxiv url: http://arxiv.org/abs/2403.19501v1
- Date: Thu, 28 Mar 2024 15:31:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 15:44:37.910106
- Title: RELI11D: A Comprehensive Multimodal Human Motion Dataset and Method
- Title(参考訳): RELI11D: 総合的マルチモーダルヒューマンモーションデータセットと方法
- Authors: Ming Yan, Yan Zhang, Shuqiang Cai, Shuqi Fan, Xincheng Lin, Yudi Dai, Siqi Shen, Chenglu Wen, Lan Xu, Yuexin Ma, Cheng Wang,
- Abstract要約: 本稿では、LiDAR、IMUシステム、RGBカメラ、イベントカメラを含む高品質なマルチモーダルヒューマンモーションデータセットRELI11Dを提案する。
3.32時間の同期したLiDAR点雲、IMU計測データ、RGBビデオ、イベントスチームを含む7つのシーンで5つのスポーツを行う10人の俳優の動きを記録している。
そこで我々は,LiDAR Point Cloud, Event Stream, RGBを効果的に活用するマルチモーダルベースラインであるLEIRを提案する。
- 参考スコア(独自算出の注目度): 44.670169033884896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comprehensive capturing of human motions requires both accurate captures of complex poses and precise localization of the human within scenes. Most of the HPE datasets and methods primarily rely on RGB, LiDAR, or IMU data. However, solely using these modalities or a combination of them may not be adequate for HPE, particularly for complex and fast movements. For holistic human motion understanding, we present RELI11D, a high-quality multimodal human motion dataset involves LiDAR, IMU system, RGB camera, and Event camera. It records the motions of 10 actors performing 5 sports in 7 scenes, including 3.32 hours of synchronized LiDAR point clouds, IMU measurement data, RGB videos and Event steams. Through extensive experiments, we demonstrate that the RELI11D presents considerable challenges and opportunities as it contains many rapid and complex motions that require precise location. To address the challenge of integrating different modalities, we propose LEIR, a multimodal baseline that effectively utilizes LiDAR Point Cloud, Event stream, and RGB through our cross-attention fusion strategy. We show that LEIR exhibits promising results for rapid motions and daily motions and that utilizing the characteristics of multiple modalities can indeed improve HPE performance. Both the dataset and source code will be released publicly to the research community, fostering collaboration and enabling further exploration in this field.
- Abstract(参考訳): 人間の動きを包括的に捉えるには、複雑なポーズの正確なキャプチャと、シーン内の人間の正確な位置決めの両方が必要である。
HPEデータセットとメソッドのほとんどは、主にRGB、LiDAR、IMUデータに依存している。
しかし、これらのモダリティのみの使用やそれらの組み合わせは、HPE、特に複雑で高速な運動には適さないかもしれない。
総合的な人間の動作理解のために,LDAR,IMUシステム,RGBカメラ,イベントカメラを含む高品質なマルチモーダル・ヒューマン・モーション・データセットRELI11Dを提案する。
3.32時間の同期したLiDAR点雲、IMU測定データ、RGBビデオ、イベントスチームを含む7つのシーンで5つのスポーツを行う10人の俳優の動きを記録している。
大規模な実験を通じて、RELI11Dは正確な位置を必要とする多くの高速かつ複雑な動きを含むため、かなりの課題と機会を提示することを示した。
そこで我々は,LiDAR Point Cloud, Event Stream, RGBを効果的に活用するマルチモーダルベースラインであるLEIRを提案する。
LEIRは、高速な動きや日常的な動きに対して有望な結果を示し、複数のモーダルの特性を利用することで、HPEの性能を向上させることができることを示す。
データセットとソースコードはともに研究コミュニティに公開され、コラボレーションを促進し、この分野でのさらなる探索を可能にする。
関連論文リスト
- Event Stream based Human Action Recognition: A High-Definition Benchmark Dataset and Algorithms [29.577583619354314]
本稿では,CeleX-Vイベントカメラを用いた大規模かつ高精細度(1280×800ドル)の人間行動認識データセットを提案する。
より包括的なベンチマークデータセットを構築するために、今後比較する作業のために、20以上の主流なHARモデルを報告します。
論文 参考訳(メタデータ) (2024-08-19T07:52:20Z) - Motion Capture from Inertial and Vision Sensors [60.5190090684795]
MINIONSは、INertialとvisION Sensorsから収集された大規模なモーションキャプチャーデータセットである。
単眼カメラと極めて少ないIMUを用いたマルチモーダルモーションキャプチャの実験を行った。
論文 参考訳(メタデータ) (2024-07-23T09:41:10Z) - MTMMC: A Large-Scale Real-World Multi-Modal Camera Tracking Benchmark [63.878793340338035]
マルチターゲットマルチカメラトラッキングは、複数のカメラからのビデオストリームを使用して個人を特定し、追跡する重要なタスクである。
このタスクの既存のデータセットは、制御されたカメラネットワーク設定内で合成または人工的に構築される。
我々は16台のマルチモーダルカメラで2つの異なる環境でキャプチャされた長いビデオシーケンスを含む実世界の大規模データセットであるMTMMCを紹介する。
論文 参考訳(メタデータ) (2024-03-29T15:08:37Z) - LiveHPS: LiDAR-based Scene-level Human Pose and Shape Estimation in Free
Environment [59.320414108383055]
シーンレベルの人間のポーズと形状推定のための単一LiDARに基づく新しいアプローチであるLiveHPSを提案する。
多様な人間のポーズを伴う様々なシナリオで収集される巨大な人間の動きデータセットFreeMotionを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:08:44Z) - Headset: Human emotion awareness under partial occlusions multimodal
dataset [19.57427512904342]
本稿では,没入型技術の発展を支援するため,新しいマルチモーダルデータベースを提案する。
提案するデータベースは倫理的に適合する多種多様なボリュームデータを提供し、特に27人の参加者が発話中に表情や微妙な身体の動きを呈示し、11人の参加者がヘッドマウントディスプレイ(HMD)を着用している。
このデータセットは、表情認識と再構成、顔の再現、ボリュームビデオなど、さまざまなXRアルゴリズムの評価とパフォーマンステストに役立てることができる。
論文 参考訳(メタデータ) (2024-02-14T11:42:15Z) - I'M HOI: Inertia-aware Monocular Capture of 3D Human-Object Interactions [42.87514729260336]
イムホイ(I'm-HOI)は、人間と物体の両方の3Dの動きを、新しい環境で忠実に捉えようとするモノクラースキームである。
一般的な動き推論とカテゴリー認識の洗練を兼ね備えている。
私たちのデータセットとコードはコミュニティにリリースされます。
論文 参考訳(メタデータ) (2023-12-10T08:25:41Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - LiDARCap: Long-range Marker-less 3D Human Motion Capture with LiDAR
Point Clouds [58.402752909624716]
既存のモーションキャプチャデータセットはほとんどが短距離であり、まだ長距離アプリケーションのニーズに合わない。
我々は,この制限を克服するために,LiDARがより長い範囲で捉えた新しい人間のモーションキャプチャーデータセットLiDARHuman26Mを提案する。
我々のデータセットには、IMUシステムによって取得された人間の動きと同期RGB画像も含まれている。
論文 参考訳(メタデータ) (2022-03-28T12:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。