論文の概要: Generalized Pose Space Embeddings for Training In-the-Wild using Anaylis-by-Synthesis
- arxiv url: http://arxiv.org/abs/2411.08603v1
- Date: Wed, 13 Nov 2024 13:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:10:26.503442
- Title: Generalized Pose Space Embeddings for Training In-the-Wild using Anaylis-by-Synthesis
- Title(参考訳): Anaylis-by-synthesis を用いたインザミルドトレーニング用汎用ポーズ空間埋め込み
- Authors: Dominik Borer, Jakob Buhmann, Martin Guay,
- Abstract要約: 我々は、ポーズの意味を捉えることができるより表現力のある中間骨格表現を開発した。
我々は、合成データに基づくトレーニングプロトコルを用いて、分析バイシンセシスフレームワークを拡張した。
提案手法は,従来の標準ベンチマークを用いた分析・合成訓練モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Modern pose estimation models are trained on large, manually-labelled datasets which are costly and may not cover the full extent of human poses and appearances in the real world. With advances in neural rendering, analysis-by-synthesis and the ability to not only predict, but also render the pose, is becoming an appealing framework, which could alleviate the need for large scale manual labelling efforts. While recent work have shown the feasibility of this approach, the predictions admit many flips due to a simplistic intermediate skeleton representation, resulting in low precision and inhibiting the acquisition of any downstream knowledge such as three-dimensional positioning. We solve this problem with a more expressive intermediate skeleton representation capable of capturing the semantics of the pose (left and right), which significantly reduces flips. To successfully train this new representation, we extend the analysis-by-synthesis framework with a training protocol based on synthetic data. We show that our representation results in less flips and more accurate predictions. Our approach outperforms previous models trained with analysis-by-synthesis on standard benchmarks.
- Abstract(参考訳): 現代のポーズ推定モデルは、コストがかかり、現実世界の人間のポーズや外見を完全にカバーできない、手作業による大規模なデータセットで訓練されている。
ニューラルレンダリングの進歩、分析バイシンセシス、ポーズを予測するだけでなく、ポーズを描画する能力によって、魅力あるフレームワークとなり、大規模な手動ラベリング作業の必要性が軽減されている。
最近の研究はこのアプローチの実現可能性を示しているが、これらの予測は単純な中間骨格表現による多くのフリップを認め、3次元位置決めのような下流の知識の獲得を阻害する。
この問題は、より表現力のある中間骨格表現により、ポーズ(左右)の意味を捉えることができ、フリップを著しく減少させる。
この表現をうまく訓練するために、我々は合成データに基づく学習プロトコルを用いて分析・合成フレームワークを拡張した。
我々の表現はフリップを減らし、より正確な予測をすることを示した。
提案手法は,従来の標準ベンチマークを用いた分析・合成訓練モデルよりも優れていた。
関連論文リスト
- Mesh Represented Recycle Learning for 3D Hand Pose and Mesh Estimation [3.126179109712709]
本稿では,3次元ハンドポーズとメッシュ推定のためのメッシュ表現型リサイクル学習戦略を提案する。
具体的には、ハンドポーズとメッシュ推定モデルはまずパラメトリックな3Dハンドアノテーションを予測する。
次に、自己推定手メッシュ表現を用いて合成手画像を生成する。
第3に、合成手画像は同じモデルに再び入力される。
論文 参考訳(メタデータ) (2023-10-18T09:50:09Z) - TexPose: Neural Texture Learning for Self-Supervised 6D Object Pose
Estimation [55.94900327396771]
合成データから6次元オブジェクトポーズ推定のためのニューラルネットワークによるテクスチャ学習を提案する。
実画像からオブジェクトの現実的なテクスチャを予測することを学ぶ。
画素完全合成データからポーズ推定を学習する。
論文 参考訳(メタデータ) (2022-12-25T13:36:32Z) - Last Layer Re-Training is Sufficient for Robustness to Spurious
Correlations [51.552870594221865]
最後の層再トレーニングは,突発的な相関ベンチマークにおいて,最先端の手法と一致するか,あるいは性能的に優れていることを示す。
また,大規模な画像ネット学習モデルにおける最終層の再トレーニングにより,背景情報やテクスチャ情報への依存を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-06T16:55:41Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。
合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。
我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文 参考訳(メタデータ) (2021-08-25T02:29:28Z) - MSR-GCN: Multi-Scale Residual Graph Convolution Networks for Human
Motion Prediction [34.565986275769745]
本稿では,人間のポーズ予測のためのマルチスケール残差グラフ畳み込みネットワーク(MSR-GCN)を提案する。
提案手法は、Human3.6MデータセットとCMU Mocapデータセットの2つの標準ベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2021-08-16T15:26:23Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - A-NeRF: Surface-free Human 3D Pose Refinement via Neural Rendering [13.219688351773422]
本稿では,自己教師型でユーザの体積体モデルを学習する単眼モーションキャプチャのためのテスト時間最適化手法を提案する。
我々のアプローチは自己監督的であり、外観、ポーズ、および3D形状のための追加の真実ラベルを必要としない。
本研究では, 識別的ポーズ推定手法と表面自由解析-合成による識別的ポーズ推定手法の組み合わせが, 純粋に識別的ポーズ推定手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-02-11T18:58:31Z) - Masked Linear Regression for Learning Local Receptive Fields for Facial
Expression Synthesis [10.28711904929932]
本稿では,表情の局所的およびスパース的構造を利用したリッジ回帰の制約付きバージョンを提案する。
既存のアプローチとは対照的に,提案手法はより大きな画像サイズで効率的に訓練することができる。
提案アルゴリズムは、Pix2Pix, CycleGAN, StarGAN, GANimationなどの最先端のGANと比較される。
論文 参考訳(メタデータ) (2020-11-18T06:04:24Z) - Monocular Human Pose and Shape Reconstruction using Part Differentiable
Rendering [53.16864661460889]
近年の研究では、3次元基底真理によって教師されるディープニューラルネットワークを介してパラメトリックモデルを直接推定する回帰に基づく手法が成功している。
本稿では,ボディセグメンテーションを重要な監視対象として紹介する。
部分分割による再構成を改善するために,部分分割により部分ベースモデルを制御可能な部分レベル微分可能部を提案する。
論文 参考訳(メタデータ) (2020-03-24T14:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。