論文の概要: Joint-Relation Transformer for Multi-Person Motion Prediction
- arxiv url: http://arxiv.org/abs/2308.04808v2
- Date: Fri, 27 Oct 2023 03:20:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 17:03:12.166404
- Title: Joint-Relation Transformer for Multi-Person Motion Prediction
- Title(参考訳): 多人数動作予測のための連系変圧器
- Authors: Qingyao Xu, Weibo Mao, Jingze Gong, Chenxin Xu, Siheng Chen, Weidi
Xie, Ya Zhang, Yanfeng Wang
- Abstract要約: 相互作用モデリングの強化を目的とした結合関係変換器を提案する。
提案手法は3DPW-SoMoF/RCで900ms VIMを13.4%改善し, 3s MPJPEで17.8%/12.0%改善した。
- 参考スコア(独自算出の注目度): 79.08243886832601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-person motion prediction is a challenging problem due to the dependency
of motion on both individual past movements and interactions with other people.
Transformer-based methods have shown promising results on this task, but they
miss the explicit relation representation between joints, such as skeleton
structure and pairwise distance, which is crucial for accurate interaction
modeling. In this paper, we propose the Joint-Relation Transformer, which
utilizes relation information to enhance interaction modeling and improve
future motion prediction. Our relation information contains the relative
distance and the intra-/inter-person physical constraints. To fuse relation and
joint information, we design a novel joint-relation fusion layer with
relation-aware attention to update both features. Additionally, we supervise
the relation information by forecasting future distance. Experiments show that
our method achieves a 13.4% improvement of 900ms VIM on 3DPW-SoMoF/RC and
17.8%/12.0% improvement of 3s MPJPE on CMU-Mpcap/MuPoTS-3D dataset.
- Abstract(参考訳): 複数の人物の動き予測は、個々の過去の動きと他の人との相互作用の両方に動きが依存するため、難しい問題である。
トランスベースの手法はこの課題に有望な結果を示しているが、正確な相互作用モデリングに不可欠な骨格構造や対距離といった関節間の明示的な関係表現を欠いている。
本稿では、関係情報を利用して相互作用モデリングを強化し、将来の動き予測を改善する共同関係変換器を提案する。
関係情報は、相対距離と人内・人間の物理的制約を含む。
連接情報と連接情報とを融合させるため,両特徴の更新に注目する新しい連接融合層を設計する。
さらに,今後の距離を予測して関係情報を監督する。
実験の結果,3DPW-SoMoF/RCでは900ms VIMが13.4%向上し,CMU-Mpcap/MuPoTS-3Dデータセットでは17.8%/12.0%改善した。
関連論文リスト
- Relation Learning and Aggregate-attention for Multi-person Motion Prediction [13.052342503276936]
多対人動作予測は、骨格構造や人間の軌道だけでなく、他者との相互作用も考慮している。
それまでの手法では、個人内の結合関係(イントラリレーション)とグループ間の相互作用(インターリレーション)は異なる種類の表現であるとしばしば見落としていた。
我々はこれらの関係を明示的にモデル化する多人数動作予測のための新しい協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-06T07:48:30Z) - Ask, Pose, Unite: Scaling Data Acquisition for Close Interactions with Vision Language Models [5.541130887628606]
密接な人間間相互作用における社会的ダイナミクスはヒューマンメッシュ推定(HME)に重大な課題をもたらす
本稿では,LVLM(Large Vision Language Models)を用いた新しいデータ生成手法を提案する。
この手法は、アノテーションの負担を軽減するだけでなく、HME内の密接な相互作用に適した包括的なデータセットの組み立てを可能にする。
論文 参考訳(メタデータ) (2024-10-01T01:14:24Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Spatio-temporal MLP-graph network for 3D human pose estimation [8.267311047244881]
グラフ畳み込みネットワークとその変種は3次元人間のポーズ推定において大きな可能性を示している。
暗黙の伝搬フェアリングを用いたグラフフィルタリングにより得られる新しい重み付きヤコビ特徴則を導入する。
また, 関節間の関係を学習するために, 隣接変調を用いた。
論文 参考訳(メタデータ) (2023-08-29T14:00:55Z) - Auxiliary Tasks Benefit 3D Skeleton-based Human Motion Prediction [106.06256351200068]
本稿では,補助的なタスクを伴うモデル学習フレームワークを提案する。
補助作業では、部分体関節の座標はマスキングまたはノイズ付加によって損なわれる。
本稿では,不完全かつ破損した動作データを処理できる新しい補助適応変換器を提案する。
論文 参考訳(メタデータ) (2023-08-17T12:26:11Z) - PGformer: Proxy-Bridged Game Transformer for Multi-Person Highly
Interactive Extreme Motion Prediction [22.209454616479505]
本稿では,極端な動きを持つ複数人の協調動作予測に焦点をあてる。
プロキシユニットを導入して,提案したXQAモジュールと連携する関係者をブリッジする。
我々のアプローチは、弱い相互作用を持つCMU-MocapとMuPoTS-3Dデータセットとも互換性がある。
論文 参考訳(メタデータ) (2023-06-06T03:25:09Z) - (Fusionformer):Exploiting the Joint Motion Synergy with Fusion Network
Based On Transformer for 3D Human Pose Estimation [1.52292571922932]
多くの従来手法では、局所的な関節情報の理解が欠けていた。
提案手法では,グローバル・テンポラル・セルフ・トラジェクトリ・モジュールとクロス・テンポラル・セルフ・トラジェクトリ・モジュールを導入する。
その結果、Human3.6Mデータセットでは2.4%のMPJPEと4.3%のP-MPJPEが改善された。
論文 参考訳(メタデータ) (2022-10-08T12:22:10Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。