論文の概要: SmoothNet: A Plug-and-Play Network for Refining Human Poses in Videos
- arxiv url: http://arxiv.org/abs/2112.13715v1
- Date: Mon, 27 Dec 2021 14:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 15:54:13.578275
- Title: SmoothNet: A Plug-and-Play Network for Refining Human Poses in Videos
- Title(参考訳): smoothnet:ビデオで人間のポーズを磨くためのプラグ&プレイネットワーク
- Authors: Ailing Zeng, Lei Yang, Xuan Ju, Jiefeng Li, Jianyi Wang, Qiang Xu
- Abstract要約: 既存のポーズ平滑化ソリューションは、ジッタリングビデオセグメント内の重大な、永続的なエラーを考慮せずには、長期的なジッタ問題に対処できない。
本研究では,既存のポーズ推定器に付加可能なSMOOTHNETを提案し,時間的スムーズさを改善し,フレーム単位の精度を同時に向上する。
提案したSMOOTHNETは,特に高い誤差と長期的ジッタを有するクリップにおいて,既存のソリューションよりも一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 14.91165391181266
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: When analyzing human motion videos, the output jitters from existing pose
estimators are highly-unbalanced. Most frames only suffer from slight jitters,
while significant jitters occur in those frames with occlusion or poor image
quality. Such complex poses often persist in videos, leading to consecutive
frames with poor estimation results and large jitters. Existing pose smoothing
solutions based on temporal convolutional networks, recurrent neural networks,
or low-pass filters cannot deal with such a long-term jitter problem without
considering the significant and persistent errors within the jittering video
segment. Motivated by the above observation, we propose a novel plug-and-play
refinement network, namely SMOOTHNET, which can be attached to any existing
pose estimators to improve its temporal smoothness and enhance its per-frame
precision simultaneously. Especially, SMOOTHNET is a simple yet effective
data-driven fully-connected network with large receptive fields, effectively
mitigating the impact of long-term jitters with unreliable estimation results.
We conduct extensive experiments on twelve backbone networks with seven
datasets across 2D and 3D pose estimation, body recovery, and downstream tasks.
Our results demonstrate that the proposed SMOOTHNET consistently outperforms
existing solutions, especially on those clips with high errors and long-term
jitters.
- Abstract(参考訳): 人間のモーションビデオを分析する際、既存のポーズ推定器からの出力ジッタは高度に不均衡である。
ほとんどのフレームはわずかなジッタしか持たないが、多くのジッタはオクルージョンや画質の悪いフレームで発生する。
このような複雑なポーズはビデオでしばしば持続し、推定結果の悪い連続フレームと大きなジッタに繋がる。
時間的畳み込みネットワーク、リカレントニューラルネットワーク、ローパスフィルタに基づく既存のポーズ平滑化ソリューションは、ジッタリングビデオセグメント内の重要かつ永続的なエラーを考慮せずに、そのような長期的なジッタ問題に対処することはできない。
そこで本研究では,既存のポーズ推定器にスムースネットを接続し,時間的平滑性の向上とフレーム単位の精度向上を両立させた新しいプラグ・アンド・プレイ・リファインメントネットワークを提案する。
特にSMOOTHNETは、大きな受容場を持つシンプルで効果的なデータ駆動完全接続ネットワークであり、信頼性の低い推定結果で長期ジッタの影響を効果的に軽減する。
2次元および3次元ポーズ推定、ボディリカバリ、ダウンストリームタスクにまたがる7つのデータセットを含む12のバックボーンネットワークについて広範な実験を行った。
提案したSMOOTHNETは,特に高い誤差と長期的ジッタを有するクリップにおいて,既存のソリューションよりも一貫して優れていることを示す。
関連論文リスト
- Kinematic-aware Hierarchical Attention Network for Human Pose Estimation
in Videos [17.831839654593452]
従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。
ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。
キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
論文 参考訳(メタデータ) (2022-11-29T01:46:11Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - Representation Recycling for Streaming Video Analysis [19.068248496174903]
StreamDEQは、最小フレーム当たりの計算量でビデオのフレームワイズ表現を推論することを目的としている。
StreamDEQは、数フレームの時間でほぼ最適表現を復元でき、ビデオ期間を通して最新の表現を維持できることを示す。
論文 参考訳(メタデータ) (2022-04-28T13:35:14Z) - AuxAdapt: Stable and Efficient Test-Time Adaptation for Temporally
Consistent Video Semantic Segmentation [81.87943324048756]
ビデオセグメンテーションでは、フレーム間で時間的に一貫した結果を生成することは、フレームワイドの精度を達成するのと同じくらい重要である。
既存の方法は、時間的整合性を達成するために、テストデータによる光フローの正則化や微調整に依存している。
本稿では、ほとんどのニューラルネットワークモデルの時間的一貫性を改善するために、効率的で直感的で教師なしのオンライン適応手法であるAuxAdaptを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:07:41Z) - Deep Dual Consecutive Network for Human Pose Estimation [44.41818683253614]
キーポイント検出を容易にするために,ビデオフレーム間の時間的キューを豊富に活用した,新しいマルチフレーム人間ポーズ推定フレームワークを提案する。
本手法は、PoseTrack 2017およびPoseTrack 2018の大規模ベンチマークデータセットにおけるマルチフレームパーソンポースチャレンジチャレンジで1位にランクインします。
論文 参考訳(メタデータ) (2021-03-12T13:11:27Z) - Fast Motion Understanding with Spatiotemporal Neural Networks and
Dynamic Vision Sensors [99.94079901071163]
本稿では,高速な動きを推論するための動的視覚センサ(DVS)システムを提案する。
ロボットが15m/s以上の速度で接近する小さな物体に反応するケースを考察する。
我々は,23.4m/sで24.73degの誤差を$theta$,18.4mmの平均離散半径予測誤差,衝突予測誤差に対する25.03%の中央値で移動した玩具ダートについて,本システムの結果を強調した。
論文 参考訳(メタデータ) (2020-11-18T17:55:07Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z) - iSeeBetter: Spatio-temporal video super-resolution using recurrent
generative back-projection networks [0.0]
ビデオ超解像(VSR)に対する新しいGANに基づく構造時間的アプローチiSeeBetterを提案する。
iSeeBetterは、リカレントバックプロジェクションネットワークをジェネレータとして使用して、現在のフレームと隣接するフレームから時空間情報を抽出する。
以上の結果から,iSeeBetterはVSRの忠実度に優れ,最先端の性能に勝ることを示した。
論文 参考訳(メタデータ) (2020-06-13T01:36:30Z) - Deep Space-Time Video Upsampling Networks [47.62807427163614]
ビデオ超解像(VSR)とフレーム(FI)は伝統的なコンピュータビジョンの問題である。
本稿では, VSR と FI を効率よく融合して, 時空ビデオアップサンプリングを行うためのエンドツーエンドフレームワークを提案する。
その結果, 時間(x7速)とパラメータ数(30%)を基準線と比較し, 定量的, 質的にも良好な結果が得られた。
論文 参考訳(メタデータ) (2020-04-06T07:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。