論文の概要: Temporal Feature Alignment and Mutual Information Maximization for
Video-Based Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2203.15227v1
- Date: Tue, 29 Mar 2022 04:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 06:51:22.549885
- Title: Temporal Feature Alignment and Mutual Information Maximization for
Video-Based Human Pose Estimation
- Title(参考訳): ビデオに基づく人文推定のための時間的特徴アライメントと相互情報の最大化
- Authors: Zhenguang Liu, Runyang Feng, Haoming Chen, Shuang Wu, Yixing Gao,
Yunjun Gao, Xiang Wang
- Abstract要約: マルチフレーム人間のポーズ推定のための新しい階層的アライメントフレームワークを提案する。
ベンチマークデータセットのPoseTrack 2017では、マルチフレームPerson Pose Estimation Challengeの1位にランクインし、ベンチマークのSub-JHMDBとPose-Track 2018では最先端のパフォーマンスを得ています。
- 参考スコア(独自算出の注目度): 38.571715193347366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-frame human pose estimation has long been a compelling and fundamental
problem in computer vision. This task is challenging due to fast motion and
pose occlusion that frequently occur in videos. State-of-the-art methods strive
to incorporate additional visual evidences from neighboring frames (supporting
frames) to facilitate the pose estimation of the current frame (key frame). One
aspect that has been obviated so far, is the fact that current methods directly
aggregate unaligned contexts across frames. The spatial-misalignment between
pose features of the current frame and neighboring frames might lead to
unsatisfactory results. More importantly, existing approaches build upon the
straightforward pose estimation loss, which unfortunately cannot constrain the
network to fully leverage useful information from neighboring frames. To tackle
these problems, we present a novel hierarchical alignment framework, which
leverages coarse-to-fine deformations to progressively update a neighboring
frame to align with the current frame at the feature level. We further propose
to explicitly supervise the knowledge extraction from neighboring frames,
guaranteeing that useful complementary cues are extracted. To achieve this
goal, we theoretically analyzed the mutual information between the frames and
arrived at a loss that maximizes the task-relevant mutual information. These
allow us to rank No.1 in the Multi-frame Person Pose Estimation Challenge on
benchmark dataset PoseTrack2017, and obtain state-of-the-art performance on
benchmarks Sub-JHMDB and Pose-Track2018. Our code is released at
https://github. com/Pose-Group/FAMI-Pose, hoping that it will be useful to the
community.
- Abstract(参考訳): マルチフレームの人間のポーズ推定は長い間、コンピュータビジョンにおいて説得力があり基本的な問題であった。
この課題は、動画で頻繁に発生する速い動きとポーズのオクルージョンのために難しい。
最先端の手法では、隣接するフレーム(支持フレーム)から追加の視覚的証拠を取り込み、現在のフレーム(キーフレーム)のポーズ推定を容易にする。
これまで省略された側面の1つは、現在のメソッドがフレーム間で非整合なコンテキストを直接集約するという事実である。
現在のフレームと隣り合うフレームのポーズ特徴の空間的不一致は、不十分な結果をもたらす可能性がある。
より重要なことに、既存のアプローチは素直なポーズ推定損失に基づいているため、残念ながらネットワークが隣のフレームから有用な情報を完全に活用することを制限できない。
これらの問題に対処するために, 粗大な変形を利用して隣接するフレームを段階的に更新し, 現在のフレームを特徴レベルで整合させる新しい階層的アライメントフレームワークを提案する。
さらに,隣接フレームからの知識抽出を明示的に監督し,有用な補足手がかりを抽出することを提案する。
この目的を達成するために、理論的にフレーム間の相互情報を解析し、タスク関連相互情報を最大化する損失に到達した。
これにより、ベンチマークデータセットPoseTrack2017のマルチフレームPerson Pose Estimation Challengeの1位にランクインし、ベンチマークのSub-JHMDBとPose-Track2018で最先端のパフォーマンスを得ることができます。
私たちのコードはhttps://github.orgで公開されています。
コミュニティにとって有益になることを期待している。
関連論文リスト
- Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Video Frame Interpolation with Densely Queried Bilateral Correlation [52.823751291070906]
Video Frame Interpolation (VFI) は、既存のフレーム間で既存の中間フレームを合成することを目的としている。
フローベースVFIアルゴリズムは、中間運動場を推定し、既存のフレームをワープする。
本稿では,DQBC(Densely Queried Bilateral correlation, DQBC)を提案する。
論文 参考訳(メタデータ) (2023-04-26T14:45:09Z) - Kinematic-aware Hierarchical Attention Network for Human Pose Estimation
in Videos [17.831839654593452]
従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。
ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。
キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
論文 参考訳(メタデータ) (2022-11-29T01:46:11Z) - Alignment-guided Temporal Attention for Video Action Recognition [18.5171795689609]
フレームごとのアライメントは、フレーム表現間の相互情報を増大させる可能性があることを示す。
隣接フレーム間のパラメータフリーパッチレベルのアライメントで1次元の時間的注意を延長するためのアライメント誘導時間注意(ATA)を提案する。
論文 参考訳(メタデータ) (2022-09-30T23:10:47Z) - OTPose: Occlusion-Aware Transformer for Pose Estimation in
Sparsely-Labeled Videos [21.893572076171527]
本稿では, コンバータを用いたフレーム間の時間依存性を符号化する手法を提案する。
我々は、PoseTrack 2017とPoseTrack 2018データセットの最先端のポーズ推定結果を達成する。
論文 参考訳(メタデータ) (2022-07-20T08:06:06Z) - Exploring Motion Ambiguity and Alignment for High-Quality Video Frame
Interpolation [46.02120172459727]
本稿では,GTに近い中間フレームを可能な限り再構築する要件を緩和することを提案する。
本研究では,テクスチャ整合性損失 (TCL) を補間されたコンテンツが,与えられたフレーム内でのテクスチャ整合性損失 (TCL) と類似した構造を維持するべきであるという仮定に基づいて開発する。
論文 参考訳(メタデータ) (2022-03-19T10:37:06Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Learning to Estimate Hidden Motions with Global Motion Aggregation [71.12650817490318]
閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。
最初の画像でピクセル間の長距離依存性を見つけるために,グローバルモーションアグリゲーションモジュールを導入する。
遮蔽領域における光流量推定が非遮蔽領域における性能を損なうことなく大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2021-04-06T10:32:03Z) - Deep Dual Consecutive Network for Human Pose Estimation [44.41818683253614]
キーポイント検出を容易にするために,ビデオフレーム間の時間的キューを豊富に活用した,新しいマルチフレーム人間ポーズ推定フレームワークを提案する。
本手法は、PoseTrack 2017およびPoseTrack 2018の大規模ベンチマークデータセットにおけるマルチフレームパーソンポースチャレンジチャレンジで1位にランクインします。
論文 参考訳(メタデータ) (2021-03-12T13:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。