論文の概要: Pressure2Motion: Hierarchical Motion Synthesis from Ground Pressure with Text Guidance
- arxiv url: http://arxiv.org/abs/2511.05038v1
- Date: Fri, 07 Nov 2025 07:21:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.699878
- Title: Pressure2Motion: Hierarchical Motion Synthesis from Ground Pressure with Text Guidance
- Title(参考訳): 圧力2運動:テキスト誘導による地圧からの階層的な運動合成
- Authors: Zhengxuan Li, Qinhui Yang, Yiyu Zhuang, Chuan Guo, Xinxin Zuo, Xiaoxiao Long, Yao Yao, Xun Cao, Qiu Shen, Hao Zhu,
- Abstract要約: Pressure2Motionは、地面の圧力シーケンスとテキストプロンプトから人間の動きを合成する、新しいモーションキャプチャアルゴリズムである。
プライバシー保護、低照度、低コストのモーションキャプチャーシナリオに適している。
- 参考スコア(独自算出の注目度): 47.8091643050689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Pressure2Motion, a novel motion capture algorithm that synthesizes human motion from a ground pressure sequence and text prompt. It eliminates the need for specialized lighting setups, cameras, or wearable devices, making it suitable for privacy-preserving, low-light, and low-cost motion capture scenarios. Such a task is severely ill-posed due to the indeterminate nature of the pressure signals to full-body motion. To address this issue, we introduce Pressure2Motion, a generative model that leverages pressure features as input and utilizes a text prompt as a high-level guiding constraint. Specifically, our model utilizes a dual-level feature extractor that accurately interprets pressure data, followed by a hierarchical diffusion model that discerns broad-scale movement trajectories and subtle posture adjustments. Both the physical cues gained from the pressure sequence and the semantic guidance derived from descriptive texts are leveraged to guide the motion generation with precision. To the best of our knowledge, Pressure2Motion is a pioneering work in leveraging both pressure data and linguistic priors for motion generation, and the established MPL benchmark is the first benchmark for this task. Experiments show our method generates high-fidelity, physically plausible motions, establishing a new state-of-the-art for this task. The codes and benchmarks will be publicly released upon publication.
- Abstract(参考訳): 地圧シーケンスとテキストプロンプトから人間の動きを合成する新しいモーションキャプチャーアルゴリズムであるScience2Motionを提案する。
特殊な照明装置、カメラ、ウェアラブルデバイスの必要性を排除し、プライバシー保護、低照度、低コストなモーションキャプチャーシナリオに適している。
このような課題は、全身運動に対する圧力信号の不確定性のため、深刻な悪影響を及ぼす。
この問題に対処するために,圧力特徴を入力として活用し,テキストプロンプトを高レベルな誘導制約として利用する生成モデルであるSy pressure2Motionを導入する。
具体的には、圧力データを正確に解釈するデュアルレベル特徴抽出器と、広範移動軌跡と微妙な姿勢調整を識別する階層拡散モデルを用いる。
プレッシャーシーケンスから得られる物理的手がかりと記述テキストから導出される意味指導の両方を利用して、動き生成を高精度に導く。
我々の知る限りでは、Pre pressure2Motionは、モーション生成に圧力データと言語的先行性の両方を活用する先駆的な作業であり、確立されたMPLベンチマークは、このタスクの最初のベンチマークである。
実験により,本手法は高忠実で物理的に妥当な動作を生成できることを示す。
コードとベンチマークは公開時に公開される。
関連論文リスト
- Towards Robust and Controllable Text-to-Motion via Masked Autoregressive Diffusion [33.9786226622757]
テキスト記述から3次元動作を生成するための頑健な動き生成フレームワークMoMADiffを提案する。
我々のモデルはフレキシブルなユーザ提供仕様をサポートし、動き合成の空間的側面と時間的側面の両方を正確に制御できる。
提案手法は, 動作品質, 命令忠実度, 定着度において, 常に最先端のモデルより優れる。
論文 参考訳(メタデータ) (2025-05-16T09:06:15Z) - TxP: Reciprocal Generation of Ground Pressure Dynamics and Activity Descriptions for Improving Human Activity Recognition [4.249657064343807]
生成基盤モデルを用いて、圧力データを自然言語として解釈するText$times$Pressureモデルを提案する。
TxPは、81,100以上のテキストプレッシャペアを含む、私たちの合成PressLangデータセットでトレーニングされています。
これによりHARのパフォーマンスは、最先端と比較して最大12.4%向上した。
論文 参考訳(メタデータ) (2025-05-04T10:07:38Z) - Text me the data: Generating Ground Pressure Sequence from Textual
Descriptions for HAR [4.503003860563811]
Text-to-Pressure (T2P) は、テキスト記述から地圧シーケンスを生成するために設計されたフレームワークである。
センサデータのベクトル量子化と簡単なテキスト条件付き自己回帰戦略を組み合わせることで,高品質な圧力系列が得られることを示す。
論文 参考訳(メタデータ) (2024-02-22T10:14:59Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of
3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。
本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。
私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文 参考訳(メタデータ) (2022-07-04T19:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。