論文の概要: Pose Uncertainty Aware Movement Synchrony Estimation via
Spatial-Temporal Graph Transformer
- arxiv url: http://arxiv.org/abs/2208.01161v1
- Date: Mon, 1 Aug 2022 22:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 13:39:13.064409
- Title: Pose Uncertainty Aware Movement Synchrony Estimation via
Spatial-Temporal Graph Transformer
- Title(参考訳): 時空間グラフ変換器による姿勢不確かさ認識同期推定
- Authors: Jicheng Li, Anjana Bhat, Roghayeh Barmaki
- Abstract要約: 運動同期は、相互作用するダイアド間の身体の動きの協調を反映する。
本稿では,移動同期推定のための骨格型グラフ変換器を提案する。
我々の手法は全体の88.98%の精度を達成し、その差を大きく上回った。
- 参考スコア(独自算出の注目度): 7.053333608725945
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Movement synchrony reflects the coordination of body movements between
interacting dyads. The estimation of movement synchrony has been automated by
powerful deep learning models such as transformer networks. However, instead of
designing a specialized network for movement synchrony estimation, previous
transformer-based works broadly adopted architectures from other tasks such as
human activity recognition. Therefore, this paper proposed a skeleton-based
graph transformer for movement synchrony estimation. The proposed model applied
ST-GCN, a spatial-temporal graph convolutional neural network for skeleton
feature extraction, followed by a spatial transformer for spatial feature
generation. The spatial transformer is guided by a uniquely designed joint
position embedding shared between the same joints of interacting individuals.
Besides, we incorporated a temporal similarity matrix in temporal attention
computation considering the periodic intrinsic of body movements. In addition,
the confidence score associated with each joint reflects the uncertainty of a
pose, while previous works on movement synchrony estimation have not
sufficiently emphasized this point. Since transformer networks demand a
significant amount of data to train, we constructed a dataset for movement
synchrony estimation using Human3.6M, a benchmark dataset for human activity
recognition, and pretrained our model on it using contrastive learning. We
further applied knowledge distillation to alleviate information loss introduced
by pose detector failure in a privacy-preserving way. We compared our method
with representative approaches on PT13, a dataset collected from autism therapy
interventions. Our method achieved an overall accuracy of 88.98% and surpassed
its counterparts by a wide margin while maintaining data privacy.
- Abstract(参考訳): 運動同期は、相互作用するダイアド間の身体の動きの協調を反映する。
移動同期の推定はトランスフォーマーネットワークなどの強力なディープラーニングモデルによって自動化されている。
しかしながら、移動同期推定のための特殊なネットワークを設計する代わりに、以前のトランスフォーマーに基づく作品は、人間の活動認識のような他のタスクからのアーキテクチャを広く採用した。
そこで本稿では,運動同期推定のためのスケルトン型グラフトランスを提案する。
提案モデルは,スケルトン特徴抽出のための空間-時空間グラフ畳み込みニューラルネットワークst-gcnを,空間特徴生成のための空間トランスフォーマに適用した。
空間変圧器は、相互作用する個体の同一関節間で共有される一意に設計されたジョイント位置によって誘導される。
さらに,身体運動の周期的内在性を考慮した時間的注意計算に時間的類似性行列を組み込んだ。
また,各関節の信頼度はポーズの不確かさを反映するが,従来の動作同期推定ではこの点が十分に強調されていなかった。
トランスフォーマーネットワークはトレーニングに大量のデータを必要とするため、人間活動認識のベンチマークデータセットであるHuman3.6Mを用いて運動同期推定のためのデータセットを構築し、コントラスト学習を用いてモデルを事前訓練した。
さらに,プライバシ保護方式でポーズ検出失敗による情報損失を軽減するため,知識蒸留を適用した。
本手法を,自閉症治療介入から収集したデータセットPT13の代表的なアプローチと比較した。
提案手法は88.98%の精度を達成し,データプライバシを維持しつつ,広いマージンで相手を上回った。
関連論文リスト
- GTransPDM: A Graph-embedded Transformer with Positional Decoupling for Pedestrian Crossing Intention Prediction [6.327758022051579]
GTransPDMは多モード特徴を利用した歩行者横断意図予測のために開発された。
PIEデータセットでは92%の精度で、JAADデータセットでは87%の精度で処理速度は0.05msである。
論文 参考訳(メタデータ) (2024-09-30T12:02:17Z) - ALERT-Transformer: Bridging Asynchronous and Synchronous Machine Learning for Real-Time Event-based Spatio-Temporal Data [8.660721666999718]
非同期センシングと同期処理を組み合わせたハイブリッドパイプラインを提案する。
競争相手よりもレイテンシの低い最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-02T13:17:19Z) - Spatio-temporal MLP-graph network for 3D human pose estimation [8.267311047244881]
グラフ畳み込みネットワークとその変種は3次元人間のポーズ推定において大きな可能性を示している。
暗黙の伝搬フェアリングを用いたグラフフィルタリングにより得られる新しい重み付きヤコビ特徴則を導入する。
また, 関節間の関係を学習するために, 隣接変調を用いた。
論文 参考訳(メタデータ) (2023-08-29T14:00:55Z) - Auxiliary Tasks Benefit 3D Skeleton-based Human Motion Prediction [106.06256351200068]
本稿では,補助的なタスクを伴うモデル学習フレームワークを提案する。
補助作業では、部分体関節の座標はマスキングまたはノイズ付加によって損なわれる。
本稿では,不完全かつ破損した動作データを処理できる新しい補助適応変換器を提案する。
論文 参考訳(メタデータ) (2023-08-17T12:26:11Z) - TransFusion: A Practical and Effective Transformer-based Diffusion Model
for 3D Human Motion Prediction [1.8923948104852863]
本研究では,3次元動作予測のための革新的で実用的な拡散モデルであるTransFusionを提案する。
我々のモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてTransformerを活用している。
クロスアテンションや適応層正規化のような余分なモジュールを利用する従来の拡散モデルとは対照的に、条件を含む全ての入力をトークンとして扱い、より軽量なモデルを作成する。
論文 参考訳(メタデータ) (2023-07-30T01:52:07Z) - Edge Continual Learning for Dynamic Digital Twins over Wireless Networks [68.65520952712914]
デジタルツイン(DT)は、現実世界とメタバースの間の重要なリンクを構成する。
本稿では,物理的双生児とそれに対応するサイバー双生児の親和性を正確にモデル化する新しいエッジ連続学習フレームワークを提案する。
提案するフレームワークは,破滅的忘れ込みに対して頑健な,高精度かつ同期的なCTモデルを実現する。
論文 参考訳(メタデータ) (2022-04-10T23:25:37Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Learning Iterative Robust Transformation Synchronization [71.73273007900717]
グラフニューラルネットワーク(GNN)を用いて変換同期を学習することを提案する。
本研究では、ロバストな損失関数のハンドクラフトを回避するとともに、グラフニューラルネットワーク(GNN)を用いて変換同期を学習することを提案する。
論文 参考訳(メタデータ) (2021-11-01T07:03:14Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Skeleton-based Action Recognition via Spatial and Temporal Transformer
Networks [12.06555892772049]
本研究では,トランスフォーマーの自己アテンション演算子を用いて,関節間の依存関係をモデル化する空間-テンポラルトランスフォーマーネットワークを提案する。
提案したST-TRは,関節座標を入力として使用する場合のすべてのデータセットの最先端性能を達成し,骨情報を追加する場合の最先端特性と一致させる。
論文 参考訳(メタデータ) (2020-08-17T15:25:40Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。