論文の概要: Selective Spatio-Temporal Aggregation Based Pose Refinement System:
Towards Understanding Human Activities in Real-World Videos
- arxiv url: http://arxiv.org/abs/2011.05358v1
- Date: Tue, 10 Nov 2020 19:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 07:50:30.412715
- Title: Selective Spatio-Temporal Aggregation Based Pose Refinement System:
Towards Understanding Human Activities in Real-World Videos
- Title(参考訳): 時空間アグリゲーションに基づくポッドリファインメントシステム:実世界の映像における人間活動の理解を目指して
- Authors: Di Yang, Rui Dai, Yaohui Wang, Rupayan Mallick, Luca Minciullo,
Gianpiero Francesca, Francois Bremond
- Abstract要約: 最先端のポーズ推定装置は、現実世界の無注釈ビデオにおいて、乱れと低解像度のために高品質な2Dまたは3Dポーズデータを取得するのに苦労している。
本稿では,複数の専門家のポーズ推定器によって抽出されたキーポイント位置を洗練・平滑化するSST-Aという選択的時空間アグリゲーション機構を提案する。
本研究では, Pose-Refinement System (SSTA-PRS) によって改良された骨格データが,既存の行動認識モデルの強化に有効であることを示す。
- 参考スコア(独自算出の注目度): 8.571131862820833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Taking advantage of human pose data for understanding human activities has
attracted much attention these days. However, state-of-the-art pose estimators
struggle in obtaining high-quality 2D or 3D pose data due to occlusion,
truncation and low-resolution in real-world un-annotated videos. Hence, in this
work, we propose 1) a Selective Spatio-Temporal Aggregation mechanism, named
SST-A, that refines and smooths the keypoint locations extracted by multiple
expert pose estimators, 2) an effective weakly-supervised self-training
framework which leverages the aggregated poses as pseudo ground-truth instead
of handcrafted annotations for real-world pose estimation. Extensive
experiments are conducted for evaluating not only the upstream pose refinement
but also the downstream action recognition performance on four datasets, Toyota
Smarthome, NTU-RGB+D, Charades, and Kinetics-50. We demonstrate that the
skeleton data refined by our Pose-Refinement system (SSTA-PRS) is effective at
boosting various existing action recognition models, which achieves competitive
or state-of-the-art performance.
- Abstract(参考訳): 近年,人間の行動を理解するためのポーズデータの利用が注目されている。
しかし、最先端のポーズ推定者は、実世界の無注釈ビデオにおいて、咬合、切断、低解像度による高品質な2dまたは3dポーズデータを得るのに苦労している。
したがって,本研究において提案する。
1) 複数の専門家のポーズ推定器によって抽出されたキーポイントの位置を洗練・円滑化する選択時空間集約機構SST-A
2) 実世界のポーズ推定のための手作りアノテーションの代わりに, 集約されたポーズを擬似接地真実として活用する, 効果的な自己学習フレームワーク。
4つのデータセット(Toyota Smarthome, NTU-RGB+D, Charades, Kinetics-50)において, 上流ポーズ補正だけでなく, 下流アクション認識性能の評価を行う。
ポーズ・リファインメント・システム(ssta-prs)によって精製されたスケルトンデータは,既存の様々な行動認識モデルの強化に有効であることを実証した。
関連論文リスト
- In My Perspective, In My Hands: Accurate Egocentric 2D Hand Pose and Action Recognition [1.4732811715354455]
アクション認識は、エゴセントリックなビデオ理解に不可欠であり、ユーザの努力なしに日々の生活活動(ADL)の自動的かつ継続的なモニタリングを可能にする。
既存の文献では、計算集約的な深度推定ネットワークを必要とする3Dハンドポーズ入力や、不快な深度センサーを装着することに焦点を当てている。
EffHandEgoNetとEffHandEgoNetの2つの新しい手法を導入する。
論文 参考訳(メタデータ) (2024-04-14T17:33:33Z) - Realistic Full-Body Tracking from Sparse Observations via Joint-Level
Modeling [13.284947022380404]
頭部と手の3つの追跡信号だけで、正確でスムーズな全身運動を得ることができる2段階のフレームワークを提案する。
本フレームワークは,第1段階の関節レベル特徴を明示的にモデル化し,第2段階の関節レベル相関を捉えるために,空間的および時間的トランスフォーマーブロックの交互化に時間的トークンとして利用する。
AMASSモーションデータセットと実捕集データに関する広範な実験により,提案手法は既存の手法と比較して,より正確で滑らかな動きを実現することができることを示す。
論文 参考訳(メタデータ) (2023-08-17T08:27:55Z) - Domain Adaptive 3D Pose Augmentation for In-the-wild Human Mesh Recovery [32.73513554145019]
Domain Adaptive 3D Pose Augmentation (DAPA)は、Wildのシナリオにおけるモデルの一般化能力を向上するデータ拡張手法である。
DAPAによる微調整が3DPWとAGORAのベンチマークの結果を効果的に改善できることを定量的に示す。
論文 参考訳(メタデータ) (2022-06-21T15:02:31Z) - PoseTriplet: Co-evolving 3D Human Pose Estimation, Imitation, and
Hallucination under Self-supervision [102.48681650013698]
既存の自己監督型3次元ポーズ推定スキームは、学習を導くための弱い監督に大きく依存している。
そこで我々は,2D-3Dのポーズペアを明示的に生成し,監督を増強する,新しい自己監督手法を提案する。
これは、ポーズ推定器とポーズ幻覚器を併用して学習する強化学習ベースの模倣器を導入することで可能となる。
論文 参考訳(メタデータ) (2022-03-29T14:45:53Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Occlusion-Robust Object Pose Estimation with Holistic Representation [42.27081423489484]
State-of-the-art(SOTA)オブジェクトのポーズ推定器は2段階のアプローチを取る。
我々は,新しいブロック・アンド・ブラックアウトバッチ拡張技術を開発した。
また,総合的なポーズ表現学習を促進するためのマルチ精度監視アーキテクチャも開発している。
論文 参考訳(メタデータ) (2021-10-22T08:00:26Z) - Adversarial Motion Modelling helps Semi-supervised Hand Pose Estimation [116.07661813869196]
そこで本稿では,非ラベルビデオに対人トレーニングとモーションモデリングのアイデアを組み合わせることを提案する。
本研究は,非ラベル映像系列の半教師あり学習により,逆方向が手ポーズ推定器の特性の向上につながることを示す。
このアプローチの主な利点は、ペアのトレーニングデータよりもはるかに容易に、未ペアのビデオとジョイントシーケンスデータを利用することができることです。
論文 参考訳(メタデータ) (2021-06-10T17:50:19Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。