論文の概要: Emotion-Conditioned Short-Horizon Human Pose Forecasting with a Lightweight Predictive World Model
- arxiv url: http://arxiv.org/abs/2604.23532v1
- Date: Sun, 26 Apr 2026 04:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.414526
- Title: Emotion-Conditioned Short-Horizon Human Pose Forecasting with a Lightweight Predictive World Model
- Title(参考訳): 軽量予測世界モデルを用いた感情調和型短時間人文予測
- Authors: Jingni Huang, Peter Bloodsworth,
- Abstract要約: 短期的な人間のポーズ予測は、対話システム、補助ロボット、感情に敏感な人間とコンピュータの相互作用において重要な役割を果たす。
本稿では,表情に基づく感情の埋め込みが,短時間のポーズ予測に補助的な条件付き信号を提供するかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Short-term human pose prediction plays a crucial role in interactive systems, assistive robots, and emotion-aware human-computer interaction[1-3]. While current trajectory prediction models primarily rely on geometric motion cues, they often overlook the underlying emotional signals influencing human motion dynamics[4-5]. This paper investigates whether facial expression-derived emotion embeddings can provide auxiliary conditional signals for short-term pose prediction. To further evaluate multimodal conditionation in a recursive prediction setting, we propose a lightweight autoregressive predictive world model that performs 15-step rolling pose prediction. This framework combines pose keypoints with emotion embeddings through a learnable gating mechanism and performs autoregressive unfolding prediction using a recurrent sequence model based on a two-layer LSTM architecture. Experiments were conducted on two small-scale pose-emotion video datasets: controlled motion sequences with minimal facial expression changes and, natural emotion-driven motion sequences with considerable facial expression changes. The results show that simple multimodal fusion does not consistently improve prediction accuracy, while normalized gating fusion significantly enhances the performance of emotion-driven motion sequences. Furthermore, counterfactual perturbation experiments demonstrate that the predicted trajectory exhibits measurable sensitivity to changes in multimodal input, suggesting that facial expression embeddings act as auxiliary conditional signals rather than redundant features. In summary, these results indicate that incorporating facial expression-derived emotion embeddings into emotion-conditional short-term pose prediction based on a lightweight predictive world model architecture is a feasible approach.
- Abstract(参考訳): 短期的な人間のポーズ予測は、対話システム、補助ロボット、感情に敏感な人間とコンピュータの相互作用[1-3]において重要な役割を果たす。
現在の軌道予測モデルは、主に幾何学的な動きの手がかりに頼っているが、人間の動きのダイナミクスに影響を与える感情的な信号を見落としていることが多い[4-5]。
本稿では,表情に基づく感情の埋め込みが,短時間のポーズ予測に補助的な条件付き信号を提供するかどうかを検討する。
再帰的予測設定におけるマルチモーダル条件付けをさらに評価するために、15ステップのロールポーズ予測を行う軽量な自己回帰予測世界モデルを提案する。
このフレームワークは、ポーズキーポイントと学習可能なゲーティング機構による感情埋め込みを組み合わせ、2層LSTMアーキテクチャに基づく繰り返しシーケンスモデルを用いて自己回帰展開予測を行う。
2つの小さなポーズ感情ビデオデータセット(最小の表情変化を伴う制御された動きシーケンスと、かなりの表情変化を持つ自然な感情駆動的な動きシーケンス)で実験を行った。
その結果, 単純なマルチモーダル融合は予測精度を常に向上しないが, 正規化ゲーティング融合は感情駆動型モーションシーケンスの性能を著しく向上させることがわかった。
さらに, 対物摂動実験により, 予測軌道は多モーダル入力の変化に対して測定可能な感度を示し, 顔表情の埋め込みが冗長な特徴よりも補助的条件信号として機能することが示唆された。
要約すると、これらの結果は、表情に基づく感情の埋め込みを、軽量な予測的世界モデルアーキテクチャに基づく感情条件の短期的ポーズ予測に組み込むことは、実現可能なアプローチであることを示している。
関連論文リスト
- Ego-centric Predictive Model Conditioned on Hand Trajectories [52.531681772560724]
自我中心のシナリオでは、次の行動とその視覚的結果の両方を予測することは、人間と物体の相互作用を理解するために不可欠である。
我々は,エゴセントリックなシナリオにおける行動と視覚的未来を共同でモデル化する,統合された2段階予測フレームワークを提案する。
我々のアプローチは、エゴセントリックな人間の活動理解とロボット操作の両方を扱うために設計された最初の統一モデルである。
論文 参考訳(メタデータ) (2025-08-27T13:09:55Z) - Continual Learning from Simulated Interactions via Multitask Prospective Rehearsal for Bionic Limb Behavior Modeling [0.7922558880545526]
生体補綴制御の文脈における人間の行動モデルを提案する。
本稿では、時間とともに動きを予測・洗練するマルチタスク・継続的適応モデルを提案する。
我々は,トランスティバイアル・アンプを含む実世界の人間の歩行データセットの実験を通じて,我々のモデルを検証した。
論文 参考訳(メタデータ) (2024-05-02T09:22:54Z) - Physics-constrained Attack against Convolution-based Human Motion
Prediction [10.57307572170918]
本研究では,人間の動き予測器の予測誤差を物理的制約で最大化することにより,最悪の場合の摂動を発生させる新たな逆攻撃法を提案する。
具体的には、対象のポーズの規模に適合する攻撃を容易にする新しい適応型スキームと、敵の例の自然性を高めるための2つの物理的制約を導入する。
論文 参考訳(メタデータ) (2023-06-21T03:01:45Z) - SPOTR: Spatio-temporal Pose Transformers for Human Motion Prediction [12.248428883804763]
3次元人間の動き予測は、コンピュータビジョンにおける高い重要性と課題を計算した研究領域である。
伝統的に、自己回帰モデルは人間の動きを予測するために用いられてきた。
人間の動作予測のための非自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2023-03-11T01:44:29Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Generating Smooth Pose Sequences for Diverse Human Motion Prediction [90.45823619796674]
本稿では,多様な動作予測と制御可能な動作予測のための統合された深部生成ネットワークを提案する。
標準ベンチマークデータセットであるHuman3.6MとHumanEva-Iの2つの実験は、我々のアプローチがサンプルの多様性と精度の両方において最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2021-08-19T00:58:00Z) - Long Term Motion Prediction Using Keyposes [122.22758311506588]
長期的な予測を達成するには、瞬時に人間のポーズを予測する必要があると論じている。
このようなポーズを「キーポス」と呼び、後続のキーポスを線形に補間して近似する複素運動と呼ぶ。
このようなキープレースのシーケンスを学習することで,将来的には最大5秒まで,非常に長期にわたる動作を予測できることが示される。
論文 参考訳(メタデータ) (2020-12-08T20:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。