Fugu-MT 論文翻訳(概要): Self-Supervised 3D Human Pose Estimation in Static Video Via Neural Rendering

論文の概要: Self-Supervised 3D Human Pose Estimation in Static Video Via Neural Rendering

arxiv url: http://arxiv.org/abs/2210.04514v1
Date: Mon, 10 Oct 2022 09:24:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-11 15:40:58.680807
Title: Self-Supervised 3D Human Pose Estimation in Static Video Via Neural Rendering
Title（参考訳）: ニューラルレンダリングによる静的ビデオにおける自己監督型3次元人物位置推定
Authors: Luca Schmidtke, Benjamin Hou, Athanasios Vlontzos, Bernhard Kainz
Abstract要約: 2D画像から3Dの人間のポーズを推定することは、コンピュータビジョンの分野における困難かつ長年の問題である。本研究では,1人の人物を含む2次元映像から3次元ポーズを推定する手法の予備的な結果を示す。
参考スコア（独自算出の注目度）: 5.568218439349004
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inferring 3D human pose from 2D images is a challenging and long-standing problem in the field of computer vision with many applications including motion capture, virtual reality, surveillance or gait analysis for sports and medicine. We present preliminary results for a method to estimate 3D pose from 2D video containing a single person and a static background without the need for any manual landmark annotations. We achieve this by formulating a simple yet effective self-supervision task: our model is required to reconstruct a random frame of a video given a frame from another timepoint and a rendered image of a transformed human shape template. Crucially for optimisation, our ray casting based rendering pipeline is fully differentiable, enabling end to end training solely based on the reconstruction task.
Abstract（参考訳）: 2D画像から3Dの人間のポーズを推定することは、モーションキャプチャー、バーチャルリアリティー、監視、スポーツや医学の歩行分析など多くの応用でコンピュータビジョンの分野において、困難かつ長期にわたる問題である。手動のランドマークアノテーションを必要とせずに、一人の人物と静的な背景を含む2Dビデオから3Dポーズを推定する手法の予備的な結果を示す。我々のモデルは、別のタイムポイントから与えられたビデオのランダムなフレームと変換された人間の形状テンプレートのレンダリングイメージを再構成する必要がある。レイキャスティングをベースとしたレンダリングパイプラインの最適化は極めて重要であり、エンド・ツー・エンドのトレーニングを再構築作業のみに基づいて行うことができる。

関連論文リスト

DreamDance: Animating Human Images by Enriching 3D Geometry Cues from 2D Poses [57.17501809717155]
本研究では,骨格ポーズシーケンスのみを条件入力として,人間のイメージをアニメーションする新しい手法であるDreamDanceを提案する。私たちの重要な洞察は、人間の画像は自然に複数のレベルの相関を示すということです。我々は5Kの高品質なダンスビデオと詳細なフレームアノテーションを組み合わせたTikTok-Dance5Kデータセットを構築した。
論文参考訳（メタデータ） (2024-11-30T08:42:13Z)
Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文参考訳（メタデータ） (2024-07-05T09:43:05Z)
Farm3D: Learning Articulated 3D Animals by Distilling 2D Diffusion [67.71624118802411]
本稿では,カテゴリー固有の3D再構成器の学習方法であるFarm3Dについて述べる。本稿では,Stable Diffusion などの画像生成装置を用いて,合成学習データを生成するフレームワークを提案する。我々のネットワークは、単分子再構成や合成などの分析に利用でき、ビデオゲームのようなリアルタイムアプリケーションのための音響資産を生成することができる。
論文参考訳（メタデータ） (2023-04-20T17:59:34Z)
Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文参考訳（メタデータ） (2023-01-12T18:01:28Z)
Structured 3D Features for Reconstructing Controllable Avatars [43.36074729431982]
パラメトリックな統計的メッシュ表面からサンプリングされた高密度な3次元点に画素整列画像特徴をプールする,新しい暗黙の3次元表現に基づくモデルであるStructured 3D Featuresを紹介する。本研究では,S3Fモデルがモノクロ3D再構成やアルベド,シェーディング推定など,これまでの課題を超越していることを示す。
論文参考訳（メタデータ） (2022-12-13T18:57:33Z)
Neural Groundplans: Persistent Neural Scene Representations from a Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文参考訳（メタデータ） (2022-07-22T17:41:24Z)
Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文参考訳（メタデータ） (2021-11-29T16:32:41Z)
Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。 Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文参考訳（メタデータ） (2021-11-12T20:20:37Z)
Vid2Actor: Free-viewpoint Animatable Person Synthesis from Video in the Wild [22.881898195409885]
対象者の「夢中」映像が与えられた場合、映像中の人物のアニマタブルなモデルを再構築する。出力モデルは、明示的な3dメッシュ再構成なしに、学習されたコントロールを介して、任意のカメラビューに任意のボディポーズでレンダリングすることができる。
論文参考訳（メタデータ） (2020-12-23T18:50:42Z)
Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。 3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文参考訳（メタデータ） (2020-04-09T07:55:01Z)
Chained Representation Cycling: Learning to Estimate 3D Human Pose and Shape by Cycling Between Representations [73.11883464562895]
本稿では,教師なし,あるいは教師なしの学習を容易にする新しいアーキテクチャを提案する。本研究では,非ペア画像と無注釈画像から3次元人物のポーズと形状を学習することにより,その手法を実証する。人間をモデル化するための結果を示す一方で、私たちの定式化は一般的であり、他の視覚問題にも適用できる。
論文参考訳（メタデータ） (2020-01-06T14:54:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。