Fugu-MT 論文翻訳(概要): Multimodal Sense-Informed Prediction of 3D Human Motions

論文の概要: Multimodal Sense-Informed Prediction of 3D Human Motions

arxiv url: http://arxiv.org/abs/2405.02911v1
Date: Sun, 5 May 2024 12:38:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 17:50:42.411258
Title: Multimodal Sense-Informed Prediction of 3D Human Motions
Title（参考訳）: 3次元動作のマルチモーダルセンスインフォームド予測
Authors: Zhenyu Lou, Qiongjie Cui, Haofan Wang, Xu Tang, Hong Zhou,
Abstract要約: 本研究は,2つのモーダル情報に対して高忠実度を生成するマルチモーダル・インフォームド・モーション・予測手法を提案する。視線情報は人間の意図と見なされ、動きとシーンの特徴が組み合わさって、世代を監督するために第3の意図に注意を向ける。実世界の2つのベンチマークにおいて,提案手法は3次元人間のポーズと軌道予測の両方において最先端の性能を達成する。
参考スコア（独自算出の注目度）: 16.71099574742631
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Predicting future human pose is a fundamental application for machine intelligence, which drives robots to plan their behavior and paths ahead of time to seamlessly accomplish human-robot collaboration in real-world 3D scenarios. Despite encouraging results, existing approaches rarely consider the effects of the external scene on the motion sequence, leading to pronounced artifacts and physical implausibilities in the predictions. To address this limitation, this work introduces a novel multi-modal sense-informed motion prediction approach, which conditions high-fidelity generation on two modal information: external 3D scene, and internal human gaze, and is able to recognize their salience for future human activity. Furthermore, the gaze information is regarded as the human intention, and combined with both motion and scene features, we construct a ternary intention-aware attention to supervise the generation to match where the human wants to reach. Meanwhile, we introduce semantic coherence-aware attention to explicitly distinguish the salient point clouds and the underlying ones, to ensure a reasonable interaction of the generated sequence with the 3D scene. On two real-world benchmarks, the proposed method achieves state-of-the-art performance both in 3D human pose and trajectory prediction.
Abstract（参考訳）: ロボットは、現実の3Dシナリオで人間とロボットのコラボレーションをシームレスに達成するために、その行動と経路を事前に計画する。奨励的な結果にもかかわらず、既存のアプローチでは、外部のシーンが動きのシーケンスに与える影響をほとんど考慮せず、予測において顕著な成果物と物理的不確実性をもたらす。この制限に対処するため、本研究では、外部3Dシーンと内部人間の視線という2つのモーダル情報に基づいて高忠実度生成を条件とし、将来の人間の活動に対する彼らのサリエンスを認識できる、新しいマルチモーダル・インフォームド・モーション・予測手法を導入する。さらに、視線情報は人間の意図と見なされ、動きとシーンの特徴を兼ね備えて、第3の意図を意識して、世代を監督し、人間が到達したい場所に合わせる。一方,有意な点群とそれに基づく点群を明確に区別するために,意味的コヒーレンスを意識した注意を導入し,生成した列と3Dシーンとの合理的な相互作用を確実にする。実世界の2つのベンチマークにおいて,提案手法は3次元人間のポーズと軌道予測の両方において最先端の性能を達成する。

関連論文リスト

FIction: 4D Future Interaction Prediction from Video [63.37136159797888]
ビデオからの4次元未来のインタラクション予測のためのFIctionを紹介する。人間の活動のインプットビデオが与えられたら、その人が次に対話する3D位置のオブジェクトを予測することが目的だ。
論文参考訳（メタデータ） (2024-12-01T18:44:17Z)
Human-Aware 3D Scene Generation with Spatially-constrained Diffusion Models [16.259040755335885]
従来の自己回帰に基づく3Dシーン生成手法は、複数の物体と入力人間の関節分布を正確に捉えるのに苦労してきた。本研究では,人間-物体衝突回避機構とオブジェクト-部屋境界制約という2つの空間衝突誘導機構を導入する。我々のフレームワークは、人間とシーンのインタラクションを正確に行うことで、より自然でわかりやすい3Dシーンを生成することができる。
論文参考訳（メタデータ） (2024-06-26T08:18:39Z)
Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文参考訳（メタデータ） (2023-12-26T18:56:49Z)
Scene-aware Human Motion Forecasting via Mutual Distance Prediction [13.067687949642641]
本研究では,人体とシーン間の相互距離による人間とシーンの相互作用をモデル化する。このような相互距離は局所的な動きと大域的な動きの両方を制約し、結果として全身的な動きは予測される。 2つのステップでパイプラインを構築し、まず将来の相互距離を予測し、次に将来の人間の動きを予測する。
論文参考訳（メタデータ） (2023-10-01T08:32:46Z)
Robots That Can See: Leveraging Human Pose for Trajectory Prediction [30.919756497223343]
本研究では,人間中心環境における未来の軌道を予測するためのトランスフォーマーアーキテクチャを提案する。結果として得られたモデルは、将来の人間の軌道予測に固有の不確実性を捉えている。我々は,限られた履歴データを持つ新しいエージェントを誤りの主な要因として同定し,予測誤差を低減するために3次元骨格ポーズの相補的な性質を実証する。
論文参考訳（メタデータ） (2023-09-29T13:02:56Z)
GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。私たちのデータ収集は特定のシーンに縛られません。視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-04-20T13:17:39Z)
Investigating Pose Representations and Motion Contexts Modeling for 3D Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。 AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-12-30T10:45:22Z)
Scene-aware Generative Network for Human Motion Synthesis [125.21079898942347]
シーンと人間の動きの相互作用を考慮した新しい枠組みを提案する。人間の動きの不確実性を考慮すると、このタスクを生成タスクとして定式化する。我々は、人間の動きと文脈シーンとの整合性を強制するための識別器を備えた、GANに基づく学習アプローチを導出する。
論文参考訳（メタデータ） (2021-05-31T09:05:50Z)
TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文参考訳（メタデータ） (2021-04-08T20:01:00Z)
Long-term Human Motion Prediction with Scene Context [60.096118270451974]
人間の動きを予測するための新しい3段階フレームワークを提案する。提案手法はまず,まず複数の人間の動作目標を抽出し,各目標に向けて3次元人間の動作経路を計画し,最後に各経路に続く3次元人間のポーズシーケンスを予測する。
論文参考訳（メタデータ） (2020-07-07T17:59:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。