論文の概要: Improving Robustness and Accuracy via Relative Information Encoding in
3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2107.13994v1
- Date: Thu, 29 Jul 2021 14:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 13:25:47.818938
- Title: Improving Robustness and Accuracy via Relative Information Encoding in
3D Human Pose Estimation
- Title(参考訳): 3次元姿勢推定における相対情報符号化によるロバストさと精度の向上
- Authors: Wenkang Shan, Haopeng Lu, Shanshe Wang, Xinfeng Zhang, Wen Gao
- Abstract要約: 位置および時間的拡張表現を出力する相対情報符号化法を提案する。
提案手法は2つの公開データセット上で最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 59.94032196768748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the existing 3D human pose estimation approaches mainly focus on
predicting 3D positional relationships between the root joint and other human
joints (local motion) instead of the overall trajectory of the human body
(global motion). Despite the great progress achieved by these approaches, they
are not robust to global motion, and lack the ability to accurately predict
local motion with a small movement range. To alleviate these two problems, we
propose a relative information encoding method that yields positional and
temporal enhanced representations. Firstly, we encode positional information by
utilizing relative coordinates of 2D poses to enhance the consistency between
the input and output distribution. The same posture with different absolute 2D
positions can be mapped to a common representation. It is beneficial to resist
the interference of global motion on the prediction results. Second, we encode
temporal information by establishing the connection between the current pose
and other poses of the same person within a period of time. More attention will
be paid to the movement changes before and after the current pose, resulting in
better prediction performance on local motion with a small movement range. The
ablation studies validate the effectiveness of the proposed relative
information encoding method. Besides, we introduce a multi-stage optimization
method to the whole framework to further exploit the positional and temporal
enhanced representations. Our method outperforms state-of-the-art methods on
two public datasets. Code is available at
https://github.com/paTRICK-swk/Pose3D-RIE.
- Abstract(参考訳): 既存の3次元ポーズ推定手法のほとんどは、人体の全体的な軌道(グローバルモーション)ではなく、歯根関節と他のヒト関節(局所運動)との間の3次元位置関係の予測に焦点を当てている。
これらのアプローチによって達成された大きな進歩にもかかわらず、グローバルな動きには堅牢ではなく、小さな動き範囲で局所的な動きを正確に予測する能力が欠如している。
これら2つの問題を緩和するために,位置情報と時間的拡張表現を生成する相対的情報符号化法を提案する。
まず,2dポーズの相対座標を利用して位置情報をエンコードし,入力分布と出力分布の一貫性を高める。
絶対的な2次元位置が異なる同じ姿勢は、共通の表現にマッピングできる。
予測結果に対するグローバルな動きの干渉に抵抗することは有益である。
第2に、時間内に同一人物のポーズと他のポーズとの接続を確立することにより、時間情報を符号化する。
現在のポーズの前と後の動きの変化により多くの注意が払われ、小さな移動範囲を持つ局所的な動きの予測性能が向上する。
アブレーション研究は,提案する相対情報符号化手法の有効性を検証する。
さらに,多段階最適化手法をフレームワーク全体に導入し,位置および時間的拡張表現をさらに活用する。
提案手法は2つの公開データセットで最先端のメソッドよりも優れています。
コードはhttps://github.com/paTRICK-swk/Pose3D-RIEで入手できる。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose
Estimation [18.72362803593654]
3Dポーズ列を3Dに上げる3Dポーズ推定における支配的なパラダイムは、長期的な時間的手がかりに大きく依存している。
これは、通常の2次元の関節座標が視覚的手がかりを持たないため、空間的文脈を知覚できないことに起因する。
そこで本研究では,市販の2次元ポーズ検出器によって生成される,手軽に利用可能な中間的視覚表現を活用する,単純かつ強力なソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-06T18:04:13Z) - Best Practices for 2-Body Pose Forecasting [58.661899246497896]
我々は、人間のポーズ予測の進捗状況を概観し、最善を尽くす一対一の実践を詳細に評価する。
他の1人のプラクティスは2体に移行しないため、提案されているベストプラクティスは階層的なボディモデリングや注目に基づくインタラクションエンコーディングは含まない。
提案した2体ポーズによるベストプラクティス予測では,最新のExPIデータセットのパフォーマンスが21.9%向上した。
論文 参考訳(メタデータ) (2023-04-12T10:46:23Z) - Mutual Information-Based Temporal Difference Learning for Human Pose
Estimation in Video [16.32910684198013]
本稿では,動的コンテキストをモデル化するために,フレーム間の時間差を利用した新しいヒューマンポーズ推定フレームワークを提案する。
具体的には、多段階差分を条件とした多段階絡み合い学習シーケンスを設計し、情報的動作表現シーケンスを導出する。
以下は、HiEveベンチマークで、複合イベントチャレンジにおけるクラウドポーズ推定において、第1位にランク付けします。
論文 参考訳(メタデータ) (2023-03-15T09:29:03Z) - Kinematic-aware Hierarchical Attention Network for Human Pose Estimation
in Videos [17.831839654593452]
従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。
ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。
キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
論文 参考訳(メタデータ) (2022-11-29T01:46:11Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Camera Motion Agnostic 3D Human Pose Estimation [8.090223360924004]
本稿では,世界座標系で定義された3次元人間のポーズとメッシュを予測するためのカメラモーション非依存アプローチを提案する。
本稿では,局所的なポーズ列から大域的な動き列を予測する双方向ゲート再帰単位(GRU)に基づくネットワークを提案する。
移動カメラ環境において構築された3DPWと合成データセットを用いて評価を行う。
論文 参考訳(メタデータ) (2021-12-01T08:22:50Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z) - Learning 3D Human Shape and Pose from Dense Body Parts [117.46290013548533]
本研究では,3次元の人体形状を学習し,身体部分の密接な対応からポーズをとるために,分解・集約ネットワーク(DaNet)を提案する。
ローカルストリームからのメッセージは集約され、回転ベースのポーズの堅牢な予測が強化される。
提案手法は,Human3.6M,UP3D,COCO,3DPWを含む屋内および実世界のデータセットで検証される。
論文 参考訳(メタデータ) (2019-12-31T15:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。