論文の概要: Recovering 3D Human Mesh from Monocular Images: A Survey
- arxiv url: http://arxiv.org/abs/2203.01923v6
- Date: Tue, 2 Jan 2024 15:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 20:23:55.504526
- Title: Recovering 3D Human Mesh from Monocular Images: A Survey
- Title(参考訳): モノクロ画像から3Dヒューマンメッシュを復元する:サーベイ
- Authors: Yating Tian, Hongwen Zhang, Yebin Liu, Limin Wang
- Abstract要約: 単眼画像から人間のポーズと形状を推定することは、コンピュータビジョンにおける長年の問題である。
本調査は, 単分子型3次元メッシュ回収の課題に焦点を当てた。
- 参考スコア(独自算出の注目度): 49.00136388529404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating human pose and shape from monocular images is a long-standing
problem in computer vision. Since the release of statistical body models, 3D
human mesh recovery has been drawing broader attention. With the same goal of
obtaining well-aligned and physically plausible mesh results, two paradigms
have been developed to overcome challenges in the 2D-to-3D lifting process: i)
an optimization-based paradigm, where different data terms and regularization
terms are exploited as optimization objectives; and ii) a regression-based
paradigm, where deep learning techniques are embraced to solve the problem in
an end-to-end fashion. Meanwhile, continuous efforts are devoted to improving
the quality of 3D mesh labels for a wide range of datasets. Though remarkable
progress has been achieved in the past decade, the task is still challenging
due to flexible body motions, diverse appearances, complex environments, and
insufficient in-the-wild annotations. To the best of our knowledge, this is the
first survey that focuses on the task of monocular 3D human mesh recovery. We
start with the introduction of body models and then elaborate recovery
frameworks and training objectives by providing in-depth analyses of their
strengths and weaknesses. We also summarize datasets, evaluation metrics, and
benchmark results. Open issues and future directions are discussed in the end,
hoping to motivate researchers and facilitate their research in this area. A
regularly updated project page can be found at
https://github.com/tinatiansjz/hmr-survey.
- Abstract(参考訳): 単眼画像から人間のポーズと形状を推定することは、コンピュータビジョンにおける長年の問題である。
統計ボディーモデルのリリース以来、3Dのメッシュリカバリが注目されている。
2D-to-3Dリフトプロセスにおける課題を克服するために、2つのパラダイムが開発された。
一 最適化目標として異なるデータ項及び正規化項を活用する最適化に基づくパラダイム
二 エンドツーエンドの方法で問題を解決するために、深層学習技術が取り入れられる回帰型パラダイム。
一方、継続的な取り組みは、幅広いデータセットの3Dメッシュラベルの品質向上に向けられている。
過去10年間に顕著な進歩を遂げてきたが、柔軟性のある体の動き、多様な外観、複雑な環境、そして未完成の注釈のために、この課題はまだ挑戦的だ。
私たちの知る限りでは、これはモノラルな3Dメッシュ回復の課題に焦点を当てた初めての調査である。
まず、ボディモデルの導入から始め、その強みと弱みを詳細に分析することで、リカバリフレームワークとトレーニング目標の精巧な分析を行います。
また、データセット、評価メトリクス、ベンチマーク結果も要約します。
オープン問題と今後の方向性は最終的に議論され、研究者のモチベーションを高め、この分野の研究を促進することを望んでいる。
定期的に更新されたプロジェクトページはhttps://github.com/tinatiansjz/hmr-surveyで見ることができる。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Hybrid 3D Human Pose Estimation with Monocular Video and Sparse IMUs [15.017274891943162]
モノクロビデオからの時間的3Dポーズ推定は、人間中心のコンピュータビジョンにおいて難しい課題である。
情報ソースを補完するために慣性センサが導入された。
物理的に合理的な3Dポーズを生成するために、異種センサデータを統合することは依然として困難である。
論文 参考訳(メタデータ) (2024-04-27T09:02:42Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep
Learning Perspective [69.44384540002358]
この問題に対処するための包括的で包括的な2D-to-3D視点を提供する。
2014年からの主流とマイルストーンのアプローチを統一フレームワークで分類しています。
また,ポーズ表現スタイル,ベンチマーク,評価指標,一般的なアプローチの定量的評価を要約した。
論文 参考訳(メタデータ) (2021-04-23T11:07:07Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Deep Learning-Based Human Pose Estimation: A Survey [66.01917727294163]
人間のポーズ推定は、過去10年間に注目を集めてきた。
ヒューマン・コンピュータ・インタラクション、モーション・アナリティクス、拡張現実、バーチャル・リアリティーなど幅広い用途で利用されている。
最近のディープラーニングベースのソリューションは、人間のポーズ推定において高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-12-24T18:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。