Fugu-MT 論文翻訳(概要): MDMP: Multi-modal Diffusion for supervised Motion Predictions with uncertainty

論文の概要: MDMP: Multi-modal Diffusion for supervised Motion Predictions with uncertainty

arxiv url: http://arxiv.org/abs/2410.03860v1
Date: Fri, 4 Oct 2024 18:49:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 15:50:43.446911
Title: MDMP: Multi-modal Diffusion for supervised Motion Predictions with uncertainty
Title（参考訳）: MDMP:不確実性を伴う教師あり動作予測のための多モード拡散
Authors: Leo Bringer, Joey Wilson, Kira Barton, Maani Ghaffari,
Abstract要約: 本稿では,運動予測のための多モード拡散モデルを提案する。骨格データと行動のテキスト記述を統合し、定量性のある不確実性を伴う洗練された長期動作予測を生成する。我々のモデルは、長期動作を正確に予測する上で、既存の生成技術よりも一貫して優れている。
参考スコア（独自算出の注目度）: 7.402769693163035
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces a Multi-modal Diffusion model for Motion Prediction (MDMP) that integrates and synchronizes skeletal data and textual descriptions of actions to generate refined long-term motion predictions with quantifiable uncertainty. Existing methods for motion forecasting or motion generation rely solely on either prior motions or text prompts, facing limitations with precision or control, particularly over extended durations. The multi-modal nature of our approach enhances the contextual understanding of human motion, while our graph-based transformer framework effectively capture both spatial and temporal motion dynamics. As a result, our model consistently outperforms existing generative techniques in accurately predicting long-term motions. Additionally, by leveraging diffusion models' ability to capture different modes of prediction, we estimate uncertainty, significantly improving spatial awareness in human-robot interactions by incorporating zones of presence with varying confidence levels for each body joint.
Abstract（参考訳）: 本稿では,動作予測(MDMP)のための多モード拡散モデルを提案する。既存の動き予測や動き生成の方法は、特に長い時間にわたって、精度や制御の限界に直面した、前の動きやテキストのプロンプトにのみ依存する。提案手法のマルチモーダルな性質は人間の動きの文脈的理解を促進させる一方,グラフベースのトランスフォーマー・フレームワークは空間的・時間的動きのダイナミクスを効果的に捉えている。その結果、我々のモデルは、長期動作を正確に予測する既存の生成技術より一貫して優れていた。さらに,拡散モデルの様々な予測モードを捉える能力を活用することで,不確実性を推定し,各関節の信頼度が変化する領域を組み込むことで,人間とロボットの相互作用における空間的認識を著しく向上する。

関連論文リスト

GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
Multi-Scale Incremental Modeling for Enhanced Human Motion Prediction in Human-Robot Collaboration [0.0]
本稿では,複数の時間スケールにまたがるインクリメンタルモデルを明示的に符号化する新しいフレームワークを提案する。 4つのデータセットの実験では、連続性、生体力学的一貫性、長期予測安定性が大幅に改善された。提案したマルチスケールインクリメンタルアプローチは、シームレスな人間とロボットの相互作用に不可欠な人間の動き予測能力を向上するための強力な技術を提供する。
論文参考訳（メタデータ） (2024-12-16T10:20:46Z)
ADM: Accelerated Diffusion Model via Estimated Priors for Robust Motion Prediction under Uncertainties [6.865435680843742]
本稿では,騒音に対する抵抗性を高めたエージェントの将来の軌道を積極的に予測する,拡散型・加速可能な新しいフレームワークを提案する。本手法は,自律走行車に必要な厳格なリアルタイム運転基準を満たす。 Argoverse 1のモーション予測データセット上でのマルチエージェント動作予測において,大幅な改善を実現している。
論文参考訳（メタデータ） (2024-05-01T18:16:55Z)
Neural Interaction Energy for Multi-Agent Trajectory Prediction [55.098754835213995]
ニューラル・インタラクション・エナジー(MATE)によるマルチエージェント軌道予測(Multi-Agent Trajectory Prediction)というフレームワークを導入する。 MATEは神経相互作用エネルギーを用いてエージェントの対話運動を評価する。時間的安定性を高めるために,エージェント間相互作用制約とエージェント内動作制約という2つの制約を導入する。
論文参考訳（メタデータ） (2024-04-25T12:47:47Z)
AdvMT: Adversarial Motion Transformer for Long-term Human Motion Prediction [2.837740438355204]
本稿では,AdvMT(Adversarial Motion Transformer)について述べる。逆行訓練では,予測の不要な成果物を効果的に削減し,より現実的で流動的な人間の動作の学習を確実にする。
論文参考訳（メタデータ） (2024-01-10T09:15:50Z)
Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。 M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文参考訳（メタデータ） (2023-08-28T10:40:16Z)
Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。従来の手法は手作りの機能と機械学習技術に依存している。 HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文参考訳（メタデータ） (2023-08-02T12:04:28Z)
TransFusion: A Practical and Effective Transformer-based Diffusion Model for 3D Human Motion Prediction [1.8923948104852863]
本研究では,3次元動作予測のための革新的で実用的な拡散モデルであるTransFusionを提案する。我々のモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてTransformerを活用している。クロスアテンションや適応層正規化のような余分なモジュールを利用する従来の拡散モデルとは対照的に、条件を含む全ての入力をトークンとして扱い、より軽量なモデルを作成する。
論文参考訳（メタデータ） (2023-07-30T01:52:07Z)
Investigating Pose Representations and Motion Contexts Modeling for 3D Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。 AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-12-30T10:45:22Z)
Dyadic Human Motion Prediction [119.3376964777803]
本稿では,2つの被験者の相互作用を明示的に推論する動き予測フレームワークを提案する。具体的には,2つの被験者の運動履歴の相互依存をモデル化する一対の注意機構を導入する。これにより、より現実的な方法で長期の運動力学を保ち、異常かつ高速な運動を予測することができる。
論文参考訳（メタデータ） (2021-12-01T10:30:40Z)
Learning to Predict Diverse Human Motions from a Single Image via Mixture Density Networks [9.06677862854201]
本研究では,混合密度ネットワーク(MDN)モデルを用いて,単一画像から将来の人間の動きを予測する新しい手法を提案する。 MDNのマルチモーダルな性質は、既存のディープヒューマンモーション予測アプローチとは対照的に、様々な将来のモーション仮説の生成を可能にしている。訓練されたモデルでは、入力として画像を直接取り、与えられた条件を満たす複数の可視運動を生成する。
論文参考訳（メタデータ） (2021-09-13T08:49:33Z)
Long Term Motion Prediction Using Keyposes [122.22758311506588]
長期的な予測を達成するには、瞬時に人間のポーズを予測する必要があると論じている。このようなポーズを「キーポス」と呼び、後続のキーポスを線形に補間して近似する複素運動と呼ぶ。このようなキープレースのシーケンスを学習することで,将来的には最大5秒まで,非常に長期にわたる動作を予測できることが示される。
論文参考訳（メタデータ） (2020-12-08T20:45:51Z)
SDMTL: Semi-Decoupled Multi-grained Trajectory Learning for 3D human motion prediction [5.581663772616127]
本研究では,未来の人間の動きを予測するために,新たなエンド・ツー・エンドネットワークであるセミ・デカップリング・マルチグラウンド・トラジェクティブ・ラーニング・ネットワークを提案する。具体的には、細粒度や粗さを含む多粒度運動軌跡の時間的ダイナミクスを捉える。階層的にBSMEを用いて多粒性軌道情報を学習し、各粒度における時間的進化方向の情報をキャプチャする。
論文参考訳（メタデータ） (2020-10-11T01:29:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。