論文の概要: DiffCap: Diffusion-based Real-time Human Motion Capture using Sparse IMUs and a Monocular Camera
- arxiv url: http://arxiv.org/abs/2508.06139v1
- Date: Fri, 08 Aug 2025 09:00:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.160519
- Title: DiffCap: Diffusion-based Real-time Human Motion Capture using Sparse IMUs and a Monocular Camera
- Title(参考訳): DiffCap:スパースIMUと単眼カメラを用いた拡散型リアルタイム人体モーションキャプチャ
- Authors: Shaohua Pan, Xinyu Yi, Yan Zhou, Weihua Jian, Yuan Zhang, Pengfei Wan, Feng Xu,
- Abstract要約: 本稿では,人間の動作先を学習するための拡散型ソリューションを提案する。
逐次視覚情報は全体として考慮され、条件埋め込みに変換される。
システム設計の有効性とポーズ推定における最先端性能について実験を行った。
- 参考スコア(独自算出の注目度): 18.00404156458132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Combining sparse IMUs and a monocular camera is a new promising setting to perform real-time human motion capture. This paper proposes a diffusion-based solution to learn human motion priors and fuse the two modalities of signals together seamlessly in a unified framework. By delicately considering the characteristics of the two signals, the sequential visual information is considered as a whole and transformed into a condition embedding, while the inertial measurement is concatenated with the noisy body pose frame by frame to construct a sequential input for the diffusion model. Firstly, we observe that the visual information may be unavailable in some frames due to occlusions or subjects moving out of the camera view. Thus incorporating the sequential visual features as a whole to get a single feature embedding is robust to the occasional degenerations of visual information in those frames. On the other hand, the IMU measurements are robust to occlusions and always stable when signal transmission has no problem. So incorporating them frame-wisely could better explore the temporal information for the system. Experiments have demonstrated the effectiveness of the system design and its state-of-the-art performance in pose estimation compared with the previous works. Our codes are available for research at https://shaohua-pan.github.io/diffcap-page.
- Abstract(参考訳): スパースIMUとモノクラーカメラを組み合わせることで、人間のリアルタイムなモーションキャプチャーを実現することが期待できる。
本稿では,人間の動作先を学習し,信号の2つのモードをシームレスに統一した枠組みで融合する拡散型解を提案する。
2つの信号の特徴を微妙に考慮し、逐次視覚情報を全体として考慮し、条件埋め込みに変換し、慣性測定をフレームによってノイズボディポーズフレームと連結して拡散モデルのためのシーケンシャル入力を構築する。
まず,被写体や被写体がカメラの視界から遠ざかっているため,一部のフレームでは視覚情報が利用できない場合がある。
したがって、連続した視覚的特徴を全体として組み込んで単一の特徴を埋め込むことは、それらのフレームにおける視覚情報の時折の劣化に対して堅牢である。
一方、IMU測定は閉塞に対して頑健であり、信号伝送に問題がない場合は常に安定である。
そのため、フレームを賢く組み込むことで、システムの時間的情報をよりよく調べることができる。
実験では, システム設計の有効性を実証した。
私たちのコードはhttps://shaohua-pan.github.io/diffcap-page.comで研究できます。
関連論文リスト
- Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Fusing Monocular Images and Sparse IMU Signals for Real-time Human
Motion Capture [8.125716139367142]
本研究では,モノクロ画像とスパースIMUを融合してリアルタイムな人体モーションキャプチャを実現する手法を提案する。
本手法は, モーションキャプチャにおいて, 目標の異なるIMU信号を完全に探索する2つの座標戦略を含む。
我々の手法は最先端のビジョン, IMU, およびグローバルな向きと局所的なポーズ推定の併用方法よりも優れていた。
論文 参考訳(メタデータ) (2023-09-01T07:52:08Z) - SODFormer: Streaming Object Detection with Transformer Using Events and
Frames [31.293847706713052]
DAカメラは、非同期イベントとフレームの相補的な2つのモードをストリーミングする。
本稿では,SODFormerを用いた新しいストリーミングオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T04:53:52Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Monocular Dynamic View Synthesis: A Reality Check [45.438135525140154]
本稿では,実測処理と既存の実験プロトコルの相違点を示す。
我々は、入力キャプチャーシーケンスに存在するマルチビュー信号の量を定量化するために、効果的なマルチビュー因子(EMF)を定義する。
また,より多様な実生活の変形シーケンスを含む新しいiPhoneデータセットを提案する。
論文 参考訳(メタデータ) (2022-10-24T17:58:28Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。