論文の概要: Deep Reinforcement Learning for Active Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2001.02024v2
- Date: Wed, 16 Dec 2020 10:23:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 20:53:26.423059
- Title: Deep Reinforcement Learning for Active Human Pose Estimation
- Title(参考訳): 能動姿勢推定のための深層強化学習
- Authors: Erik G\"artner, Aleksis Pirinen, Cristian Sminchisescu
- Abstract要約: 完全トレーニング可能な深層強化学習型アクティブポーズ推定アーキテクチャであるPose-DRLを紹介する。
提案モデルでは,強い多視点ベースラインと比較して,より正確なポーズ推定を行う視点を選択することを学習している。
- 参考スコア(独自算出の注目度): 35.229529080763925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most 3d human pose estimation methods assume that input -- be it images of a
scene collected from one or several viewpoints, or from a video -- is given.
Consequently, they focus on estimates leveraging prior knowledge and
measurement by fusing information spatially and/or temporally, whenever
available. In this paper we address the problem of an active observer with
freedom to move and explore the scene spatially -- in `time-freeze' mode --
and/or temporally, by selecting informative viewpoints that improve its
estimation accuracy. Towards this end, we introduce Pose-DRL, a fully trainable
deep reinforcement learning-based active pose estimation architecture which
learns to select appropriate views, in space and time, to feed an underlying
monocular pose estimator. We evaluate our model using single- and multi-target
estimators with strong result in both settings. Our system further learns
automatic stopping conditions in time and transition functions to the next
temporal processing step in videos. In extensive experiments with the Panoptic
multi-view setup, and for complex scenes containing multiple people, we show
that our model learns to select viewpoints that yield significantly more
accurate pose estimates compared to strong multi-view baselines.
- Abstract(参考訳): ほとんどの3d人間のポーズ推定手法は、1つまたは複数の視点またはビデオから収集されたシーンの入力が与えられると仮定している。
その結果、いつでも空間的および/または時間的に情報を融合することにより、事前知識と測定の活用を見積もることに集中する。
本稿では,「時間フリーズ」モードで,あるいは時間的に,空間的に移動・探索する自由を持つアクティブオブザーバの問題に対処し,その推定精度を向上させる情報的視点を選択する。
この目的のために,Pose-DRLを導入する。これは完全トレーニング可能な深層強化学習に基づく能動ポーズ推定アーキテクチャで,空間と時間で適切なビューを選択して,基礎となるモノラルポーズ推定器を給餌する。
我々は,単一および複数目標推定器を用いてモデルを評価し,両設定で強い結果を得た。
さらに,ビデオにおける時間と遷移関数の自動停止条件を次の時間処理ステップへ学習する。
Panoptic Multi-view セットアップによる広範な実験と、複数の人物を含む複雑なシーンにおいて、我々のモデルは、強いマルチビューベースラインに比べてはるかに正確なポーズ推定をもたらす視点を選択することを学習している。
関連論文リスト
- TEMPO: Efficient Multi-View Pose Estimation, Tracking, and Forecasting [27.3359362364858]
本稿では,頑健な時間的表現を学習する効率的な多視点ポーズ推定モデルを提案する。
我々のモデルは微調整なしでデータセットをまたいで一般化することができる。
論文 参考訳(メタデータ) (2023-09-14T17:56:30Z) - Mutual Information-Based Temporal Difference Learning for Human Pose
Estimation in Video [16.32910684198013]
本稿では,動的コンテキストをモデル化するために,フレーム間の時間差を利用した新しいヒューマンポーズ推定フレームワークを提案する。
具体的には、多段階差分を条件とした多段階絡み合い学習シーケンスを設計し、情報的動作表現シーケンスを導出する。
以下は、HiEveベンチマークで、複合イベントチャレンジにおけるクラウドポーズ推定において、第1位にランク付けします。
論文 参考訳(メタデータ) (2023-03-15T09:29:03Z) - Live Stream Temporally Embedded 3D Human Body Pose and Shape Estimation [13.40702053084305]
ライブストリーム映像の精度と時間的整合性を改善するために,時間的に埋め込まれた3次元人体ポーズと形状推定法(TePose)を提案する。
マルチスケールの畳み込みネットワークを,3次元ラベリングを伴わないデータセットを用いた対人訓練のための運動判別器として提示する。
論文 参考訳(メタデータ) (2022-07-25T21:21:59Z) - Snipper: A Spatiotemporal Transformer for Simultaneous Multi-Person 3D
Pose Estimation Tracking and Forecasting on a Video Snippet [24.852728097115744]
RGBからの多人数ポーズ理解には、ポーズ推定、トラッキング、動き予測という3つの複雑なタスクが含まれる。
既存の作業の多くは、ひとつのタスクに集中するか、複数のタスクを別々に解決するためのマルチステージアプローチを採用するかのどちらかです。
Snipperは、複数の人物によるポーズ推定、追跡、動き予測を同時に行うための統合されたフレームワークである。
論文 参考訳(メタデータ) (2022-07-09T18:42:14Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - Unsupervised Learning on Monocular Videos for 3D Human Pose Estimation [121.5383855764944]
コントラッシブな自己教師学習を用いて、シングルビュービデオからリッチな潜伏ベクトルを抽出する。
また,CSSを時間変化の特徴のみに適用すると同時に,入力を再構築し,近辺と遠方の特徴間の段階的な遷移を促すことにより,リッチな潜伏空間が得られることを示す。
本手法は他の教師なしシングルビュー手法よりも優れており,マルチビュー手法の性能と一致している。
論文 参考訳(メタデータ) (2020-12-02T20:27:35Z) - Towards Accurate Human Pose Estimation in Videos of Crowded Scenes [134.60638597115872]
我々は、時間的文脈を利用して新しいデータを収集する視点から、混雑したシーンのビデオにおける人間のポーズ推定を改善することに注力する。
あるフレームについては、過去のフレームから過去のポーズを転送し、その後のフレームから現在のフレームへ未来的なポーズを後退させ、ビデオにおける安定した人間のポーズ推定に繋がる。
このようにして、HIEチャレンジのテストデータセット上で、13本中7本、56.33本の平均w_APで最高の性能を達成する。
論文 参考訳(メタデータ) (2020-10-16T13:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。