Fugu-MT 論文翻訳(概要): Mutual Information-Based Temporal Difference Learning for Human Pose Estimation in Video

論文の概要: Mutual Information-Based Temporal Difference Learning for Human Pose Estimation in Video

arxiv url: http://arxiv.org/abs/2303.08475v2
Date: Mon, 8 May 2023 13:43:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-09 20:54:29.086197
Title: Mutual Information-Based Temporal Difference Learning for Human Pose Estimation in Video
Title（参考訳）: ビデオにおける人文推定のための相互情報に基づく時間差分学習
Authors: Runyang Feng, Yixing Gao, Xueqing Ma, Tze Ho Elden Tse, Hyung Jin Chang
Abstract要約: 本稿では,動的コンテキストをモデル化するために,フレーム間の時間差を利用した新しいヒューマンポーズ推定フレームワークを提案する。具体的には、多段階差分を条件とした多段階絡み合い学習シーケンスを設計し、情報的動作表現シーケンスを導出する。以下は、HiEveベンチマークで、複合イベントチャレンジにおけるクラウドポーズ推定において、第1位にランク付けします。
参考スコア（独自算出の注目度）: 16.32910684198013
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Temporal modeling is crucial for multi-frame human pose estimation. Most existing methods directly employ optical flow or deformable convolution to predict full-spectrum motion fields, which might incur numerous irrelevant cues, such as a nearby person or background. Without further efforts to excavate meaningful motion priors, their results are suboptimal, especially in complicated spatiotemporal interactions. On the other hand, the temporal difference has the ability to encode representative motion information which can potentially be valuable for pose estimation but has not been fully exploited. In this paper, we present a novel multi-frame human pose estimation framework, which employs temporal differences across frames to model dynamic contexts and engages mutual information objectively to facilitate useful motion information disentanglement. To be specific, we design a multi-stage Temporal Difference Encoder that performs incremental cascaded learning conditioned on multi-stage feature difference sequences to derive informative motion representation. We further propose a Representation Disentanglement module from the mutual information perspective, which can grasp discriminative task-relevant motion signals by explicitly defining useful and noisy constituents of the raw motion features and minimizing their mutual information. These place us to rank No.1 in the Crowd Pose Estimation in Complex Events Challenge on benchmark dataset HiEve, and achieve state-of-the-art performance on three benchmarks PoseTrack2017, PoseTrack2018, and PoseTrack21.
Abstract（参考訳）: 多フレーム人間のポーズ推定には時間モデリングが不可欠である。既存のほとんどの手法では、光学的流れや変形可能な畳み込みを用いてフルスペクトル運動場を予測し、近くの人や背景など多くの無関係な手がかりを生じる可能性がある。特に複雑な時空間相互作用において、意味のある動きの前兆を発掘するためのさらなる努力がなければ、その結果は最適以下である。一方,時間差は,ポーズ推定に有用であるが十分に活用されていない代表的動作情報を符号化する能力を有する。本稿では,フレーム間の時間的差異を利用して動的文脈をモデル化し,相互情報を客観的に係合し,有用な動き情報の絡み合いを容易にする,新しい多フレーム人格推定フレームワークを提案する。具体的には,多段階特徴差分列に基づくインクリメンタルなカスケード学習を行う多段階時間差分エンコーダを設計し,情報的動作表現を導出する。さらに,実動特徴の有益・無音成分を明示的に定義し,それらの相互情報を最小化することにより,識別的タスク関連動作信号を把握できる相互情報の観点から表現不等角化モジュールを提案する。これにより、ベンチマークデータセットHiEve上のCrowd Pose Estimation in Complex Events Challengeの1位にランクインし、3つのベンチマークであるPoseTrack2017、PoseTrack2018、PoseTrack21で最先端のパフォーマンスを達成することができます。

関連論文リスト

ReMP: Reusable Motion Prior for Multi-domain 3D Human Pose Estimation and Motion Inbetweening [10.813269931915364]
我々は人体形状の完全なパラメトリックモデルの前列からリッチな動きを学習する。我々の前者は、フレーム不足やノイズ測定で簡単にポーズを推定できる。 ReMPは、多種多様な実用的な3Dモーションデータに基づくベースライン法よりも一貫して優れている。
論文参考訳（メタデータ） (2024-11-13T02:42:07Z)
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文参考訳（メタデータ） (2024-10-04T18:00:07Z)
Joint-Motion Mutual Learning for Pose Estimation in Videos [21.77871402339573]
ビデオにおける人間のポーズ推定は、コンピュータビジョンの領域において、説得力がありながら挑戦的な課題だった。最近の手法では、ポーズ推定のためにバックボーンネットワークによって生成された複数フレームの視覚的特徴を統合することを目指している。ポーズ推定のための新しい共同動作相互学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-05T07:37:55Z)
Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。従来の手法は手作りの機能と機械学習技術に依存している。 HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文参考訳（メタデータ） (2023-08-02T12:04:28Z)
DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose Estimation [16.32910684198013]
本稿では、条件付きヒートマップ生成問題として、ビデオに基づく人間のポーズ推定を定式化する新しい拡散アーキテクチャDiffPoseを提案する。ポーズ推定タスクにおけるDiffPoseの特徴として,(i)複数のポーズ推定を組み合わせて予測精度を向上させる能力,(ii)モデルを再訓練することなく特徴改善のための反復的なステップ数を調整する能力,の2点を挙げる。
論文参考訳（メタデータ） (2023-07-31T14:00:23Z)
Motion Prediction via Joint Dependency Modeling in Phase Space [40.54430409142653]
我々は、運動解剖学の明示的な事前知識を活用するために、新しい畳み込みニューラルモデルを導入する。次に,個々の関節機能間の暗黙的関係を学習するグローバル最適化モジュールを提案する。本手法は,大規模な3次元人体動作ベンチマークデータセットを用いて評価する。
論文参考訳（メタデータ） (2022-01-07T08:30:01Z)
Exploring Motion and Appearance Information for Temporal Sentence Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2022-01-03T02:44:18Z)
Investigating Pose Representations and Motion Contexts Modeling for 3D Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。 AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-12-30T10:45:22Z)
Improving Robustness and Accuracy via Relative Information Encoding in 3D Human Pose Estimation [59.94032196768748]
位置および時間的拡張表現を出力する相対情報符号化法を提案する。提案手法は2つの公開データセット上で最先端の手法より優れている。
論文参考訳（メタデータ） (2021-07-29T14:12:19Z)
Event-based Motion Segmentation with Spatio-Temporal Graph Cuts [51.17064599766138]
イベントベースカメラで取得したオブジェクトを独立に識別する手法を開発した。この方法は、予想される移動物体の数を事前に決定することなく、技術状態よりも同等以上の性能を発揮する。
論文参考訳（メタデータ） (2020-12-16T04:06:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。