論文の概要: Unsupervised Prior Learning: Discovering Categorical Pose Priors from Videos
- arxiv url: http://arxiv.org/abs/2410.03858v1
- Date: Fri, 4 Oct 2024 18:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 15:50:43.452855
- Title: Unsupervised Prior Learning: Discovering Categorical Pose Priors from Videos
- Title(参考訳): 教師なしの事前学習:ビデオからカテゴリの優先順位を発見する
- Authors: Ziyu Wang, Shuangpeng Han, Mike Zheng Shou, Mengmi Zhang,
- Abstract要約: 前者は、システムに関する信念や仮定の集まりを表し、推論と意思決定を支援する。
本稿では、AIモデルが自己教師型でビデオからオブジェクトをアニメーションする事前ポーズを学習する、ポーズ推定における教師なし事前学習の課題を紹介する。
本稿では,PPL(Pose Prior Learner)という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 19.190277325663754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A prior represents a set of beliefs or assumptions about a system, aiding inference and decision-making. In this work, we introduce the challenge of unsupervised prior learning in pose estimation, where AI models learn pose priors of animate objects from videos in a self-supervised manner. These videos present objects performing various actions, providing crucial information about their keypoints and connectivity. While priors are effective in pose estimation, acquiring them can be difficult. We propose a novel method, named Pose Prior Learner (PPL), to learn general pose priors applicable to any object category. PPL uses a hierarchical memory to store compositional parts of prototypical poses, from which we distill a general pose prior. This prior enhances pose estimation accuracy through template transformation and image reconstruction. PPL learns meaningful pose priors without any additional human annotations or interventions, outperforming competitive baselines on both human and animal pose estimation datasets. Notably, our experimental results reveal the effectiveness of PPL using learnt priors for pose estimation on occluded images. Through iterative inference, PPL leverages priors to refine estimated poses, regressing them to any prototypical poses stored in memory. Our code, model, and data will be publicly available.
- Abstract(参考訳): 前者は、システムに関する信念や仮定の集まりを表し、推論と意思決定を支援する。
本稿では、AIモデルが自己教師型でビデオからオブジェクトをアニメーションする事前ポーズを学習する、ポーズ推定における教師なし事前学習の課題を紹介する。
これらのビデオは、さまざまなアクションを実行し、キーポイントと接続性に関する重要な情報を提供する。
前者はポーズ推定に有効であるが、それを取得することは困難である。
本稿では,PPL(Pose Prior Learner)という新しい手法を提案する。
PPLは階層記憶を用いて、原型的なポーズの合成部分を保存する。
これによりテンプレート変換と画像再構成によりポーズ推定精度が向上する。
PPLは、追加の人間のアノテーションや介入なしに有意義なポーズ前処理を学習し、人間と動物のポーズ推定データセットの競争ベースラインを上回っている。
特に,本実験の結果から,学習済み先行画像のポーズ推定におけるPPLの有効性が明らかとなった。
反復推論により、PPLは推定されたポーズを洗練させ、メモリに格納された任意の原型ポーズに回帰させる。
私たちのコード、モデル、データは公開されます。
関連論文リスト
- GRPose: Learning Graph Relations for Human Image Generation with Pose Priors [21.971188335727074]
人間の画像生成のための制御情報を提供するために,ポーズ前のグラフ関係を探索するフレームワークを提案する。
提案モデルでは,最新のベンチマークモデルと比較して,ポーズ平均精度が9.98%向上した。
論文 参考訳(メタデータ) (2024-08-29T13:58:34Z) - Learning a Category-level Object Pose Estimator without Pose Annotations [37.03715008347576]
ポーズアノテーションを使わずにカテゴリレベルの3Dオブジェクトのポーズ推定を学習することを提案する。
手動でアノテートされた画像を使用する代わりに、拡散モデルを利用して、制御されたポーズ差の下で一連の画像を生成する。
提案手法は,単一ショット設定からカテゴリレベルのオブジェクトポーズ推定を行う能力を有することを示す。
論文 参考訳(メタデータ) (2024-04-08T15:59:29Z) - Understanding Pose and Appearance Disentanglement in 3D Human Pose
Estimation [72.50214227616728]
ポーズ情報から外見情報を引き離すために,自己教師型で画像表現を学習する手法がいくつか提案されている。
我々は,多種多様な画像合成実験を通じて,自己教師ネットワークの観点から,ゆがみについて検討する。
我々は,対象の自然な外見変化を生起することに焦点を当てた敵対的戦略を設計し,その反対に,絡み合ったネットワークが堅牢であることを期待している。
論文 参考訳(メタデータ) (2023-09-20T22:22:21Z) - Generalizable Pose Estimation Using Implicit Scene Representations [4.124185654280966]
6-DoFのポーズ推定は、ロボット操作パイプラインの重要なコンポーネントである。
本稿では,異なるポーズで表現できる十分な情報を含むモデルを用いたポーズ推定の一般化能力について論じる。
最終評価では,既存手法と比較して推論性能と速度が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-26T20:42:52Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Few-View Object Reconstruction with Unknown Categories and Camera Poses [80.0820650171476]
この研究は、カメラのポーズやオブジェクトのカテゴリを知らない少数の画像から、一般的な現実世界のオブジェクトを再構築する。
私たちの研究の要点は、形状再構成とポーズ推定という、2つの基本的な3D視覚問題を解決することです。
提案手法は,各ビューから3次元特徴を予測し,それらを入力画像と組み合わせて活用し,クロスビュー対応を確立する。
論文 参考訳(メタデータ) (2022-12-08T18:59:02Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - Towards Accurate Human Pose Estimation in Videos of Crowded Scenes [134.60638597115872]
我々は、時間的文脈を利用して新しいデータを収集する視点から、混雑したシーンのビデオにおける人間のポーズ推定を改善することに注力する。
あるフレームについては、過去のフレームから過去のポーズを転送し、その後のフレームから現在のフレームへ未来的なポーズを後退させ、ビデオにおける安定した人間のポーズ推定に繋がる。
このようにして、HIEチャレンジのテストデータセット上で、13本中7本、56.33本の平均w_APで最高の性能を達成する。
論文 参考訳(メタデータ) (2020-10-16T13:19:11Z) - Camera Pose Matters: Improving Depth Prediction by Mitigating Pose
Distribution Bias [12.354076490479516]
トレーニングと予測中にカメラのポーズを利用する2つの新しい手法を提案する。
まず、より多様な視点で新しいトレーニング例を合成する、シンプルな視点対応データ拡張を提案する。
次に,画像当たりのカメラポーズを先行知識として利用し,入力の一部として符号化する条件モデルを提案する。
論文 参考訳(メタデータ) (2020-07-08T04:14:17Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。