論文の概要: Mutual Information-Based Temporal Difference Learning for Human Pose
Estimation in Video
- arxiv url: http://arxiv.org/abs/2303.08475v2
- Date: Mon, 8 May 2023 13:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 20:54:29.086197
- Title: Mutual Information-Based Temporal Difference Learning for Human Pose
Estimation in Video
- Title(参考訳): ビデオにおける人文推定のための相互情報に基づく時間差分学習
- Authors: Runyang Feng, Yixing Gao, Xueqing Ma, Tze Ho Elden Tse, Hyung Jin
Chang
- Abstract要約: 本稿では,動的コンテキストをモデル化するために,フレーム間の時間差を利用した新しいヒューマンポーズ推定フレームワークを提案する。
具体的には、多段階差分を条件とした多段階絡み合い学習シーケンスを設計し、情報的動作表現シーケンスを導出する。
以下は、HiEveベンチマークで、複合イベントチャレンジにおけるクラウドポーズ推定において、第1位にランク付けします。
- 参考スコア(独自算出の注目度): 16.32910684198013
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Temporal modeling is crucial for multi-frame human pose estimation. Most
existing methods directly employ optical flow or deformable convolution to
predict full-spectrum motion fields, which might incur numerous irrelevant
cues, such as a nearby person or background. Without further efforts to
excavate meaningful motion priors, their results are suboptimal, especially in
complicated spatiotemporal interactions. On the other hand, the temporal
difference has the ability to encode representative motion information which
can potentially be valuable for pose estimation but has not been fully
exploited. In this paper, we present a novel multi-frame human pose estimation
framework, which employs temporal differences across frames to model dynamic
contexts and engages mutual information objectively to facilitate useful motion
information disentanglement. To be specific, we design a multi-stage Temporal
Difference Encoder that performs incremental cascaded learning conditioned on
multi-stage feature difference sequences to derive informative motion
representation. We further propose a Representation Disentanglement module from
the mutual information perspective, which can grasp discriminative
task-relevant motion signals by explicitly defining useful and noisy
constituents of the raw motion features and minimizing their mutual
information. These place us to rank No.1 in the Crowd Pose Estimation in
Complex Events Challenge on benchmark dataset HiEve, and achieve
state-of-the-art performance on three benchmarks PoseTrack2017, PoseTrack2018,
and PoseTrack21.
- Abstract(参考訳): 多フレーム人間のポーズ推定には時間モデリングが不可欠である。
既存のほとんどの手法では、光学的流れや変形可能な畳み込みを用いてフルスペクトル運動場を予測し、近くの人や背景など多くの無関係な手がかりを生じる可能性がある。
特に複雑な時空間相互作用において、意味のある動きの前兆を発掘するためのさらなる努力がなければ、その結果は最適以下である。
一方,時間差は,ポーズ推定に有用であるが十分に活用されていない代表的動作情報を符号化する能力を有する。
本稿では,フレーム間の時間的差異を利用して動的文脈をモデル化し,相互情報を客観的に係合し,有用な動き情報の絡み合いを容易にする,新しい多フレーム人格推定フレームワークを提案する。
具体的には,多段階特徴差分列に基づくインクリメンタルなカスケード学習を行う多段階時間差分エンコーダを設計し,情報的動作表現を導出する。
さらに,実動特徴の有益・無音成分を明示的に定義し,それらの相互情報を最小化することにより,識別的タスク関連動作信号を把握できる相互情報の観点から表現不等角化モジュールを提案する。
これにより、ベンチマークデータセットHiEve上のCrowd Pose Estimation in Complex Events Challengeの1位にランクインし、3つのベンチマークであるPoseTrack2017、PoseTrack2018、PoseTrack21で最先端のパフォーマンスを達成することができます。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Joint-Motion Mutual Learning for Pose Estimation in Videos [21.77871402339573]
ビデオにおける人間のポーズ推定は、コンピュータビジョンの領域において、説得力がありながら挑戦的な課題だった。
最近の手法では、ポーズ推定のためにバックボーンネットワークによって生成された複数フレームの視覚的特徴を統合することを目指している。
ポーズ推定のための新しい共同動作相互学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-05T07:37:55Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose
Estimation [16.32910684198013]
本稿では、条件付きヒートマップ生成問題として、ビデオに基づく人間のポーズ推定を定式化する新しい拡散アーキテクチャDiffPoseを提案する。
ポーズ推定タスクにおけるDiffPoseの特徴として,(i)複数のポーズ推定を組み合わせて予測精度を向上させる能力,(ii)モデルを再訓練することなく特徴改善のための反復的なステップ数を調整する能力,の2点を挙げる。
論文 参考訳(メタデータ) (2023-07-31T14:00:23Z) - Motion Prediction via Joint Dependency Modeling in Phase Space [40.54430409142653]
我々は、運動解剖学の明示的な事前知識を活用するために、新しい畳み込みニューラルモデルを導入する。
次に,個々の関節機能間の暗黙的関係を学習するグローバル最適化モジュールを提案する。
本手法は,大規模な3次元人体動作ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2022-01-07T08:30:01Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Exploring Versatile Prior for Human Motion via Motion Frequency Guidance [32.50770614788775]
我々は、人間の動きの固有確率分布をモデル化する多目的運動を事前に学習する枠組みを学習する。
効率的な事前表現学習のために,冗長な環境情報を除去するグローバル指向正規化を提案する。
そこで我々は,環境情報を学習可能な方法で入力動作データから切り離すための認知学習手法を採用した。
論文 参考訳(メタデータ) (2021-11-25T13:24:44Z) - Improving Robustness and Accuracy via Relative Information Encoding in
3D Human Pose Estimation [59.94032196768748]
位置および時間的拡張表現を出力する相対情報符号化法を提案する。
提案手法は2つの公開データセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-07-29T14:12:19Z) - Event-based Motion Segmentation with Spatio-Temporal Graph Cuts [51.17064599766138]
イベントベースカメラで取得したオブジェクトを独立に識別する手法を開発した。
この方法は、予想される移動物体の数を事前に決定することなく、技術状態よりも同等以上の性能を発揮する。
論文 参考訳(メタデータ) (2020-12-16T04:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。