論文の概要: Pose Priors from Language Models
- arxiv url: http://arxiv.org/abs/2405.03689v1
- Date: Mon, 6 May 2024 17:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 12:57:40.717004
- Title: Pose Priors from Language Models
- Title(参考訳): 言語モデルからのポースプライオリティ
- Authors: Sanjay Subramanian, Evonne Ng, Lea Müller, Dan Klein, Shiry Ginosar, Trevor Darrell,
- Abstract要約: 本稿では,正確な物理的接触制約を強制するゼロショットポーズ最適化法を提案する。
本手法は,近接した人物の驚くほど説得力のあるポーズを再現する。
従来の手法とは異なり,本手法は自己接触と対人接触を解消するための統一的な枠組みを提供する。
- 参考スコア(独自算出の注目度): 74.61186408764559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a zero-shot pose optimization method that enforces accurate physical contact constraints when estimating the 3D pose of humans. Our central insight is that since language is often used to describe physical interaction, large pretrained text-based models can act as priors on pose estimation. We can thus leverage this insight to improve pose estimation by converting natural language descriptors, generated by a large multimodal model (LMM), into tractable losses to constrain the 3D pose optimization. Despite its simplicity, our method produces surprisingly compelling pose reconstructions of people in close contact, correctly capturing the semantics of the social and physical interactions. We demonstrate that our method rivals more complex state-of-the-art approaches that require expensive human annotation of contact points and training specialized models. Moreover, unlike previous approaches, our method provides a unified framework for resolving self-contact and person-to-person contact.
- Abstract(参考訳): 本研究では,人間の3次元ポーズを推定する際に,正確な物理的接触制約を強制するゼロショットポーズ最適化手法を提案する。
我々の中心的な洞察は、言語は物理的相互作用を記述するためにしばしば使用されるため、大きな事前訓練されたテキストベースのモデルは、ポーズ推定の先行として振る舞うことができるということである。
そこで我々は,この知見を利用して,LMM(Large Multimodal Model)によって生成された自然言語記述子をトラクタブルな損失に変換することにより,ポーズ推定を改善することができる。
そのシンプルさにもかかわらず、我々の手法は驚くほど説得力のある人物のポーズを再現し、社会的および身体的相互作用のセマンティクスを正確に捉えている。
本手法は,接触点の人為的アノテーションや特化モデルの訓練を必要とする,より複雑な最先端の手法と競合することを示す。
さらに,従来の手法と異なり,本手法は自己接触と対人接触を解消するための統一的な枠組みを提供する。
関連論文リスト
- Reconstructing Action-Conditioned Human-Object Interactions Using
Commonsense Knowledge Priors [42.17542596399014]
本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。
提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。
本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
論文 参考訳(メタデータ) (2022-09-06T13:32:55Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - Contact-Aware Retargeting of Skinned Motion [49.71236739408685]
本稿では,自己接触を保存し,相互接続を防止する動作推定手法を提案する。
入力運動における自己接触と接地を同定し、出力骨格に適用するための動作を最適化する。
実験では,従来の手法を定量的に上回り,近年の成果よりも高い品質で再ターゲットされた動きを評価できるユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-09-15T17:05:02Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - Monocular Real-time Full Body Capture with Inter-part Correlations [66.22835689189237]
本稿では,体と手の形状と運動を1色画像から動的3次元顔モデルと共に推定する,実時間フルボディキャプチャの最初の手法を提案する。
提案手法では,体と手の相関を高い計算効率で活用する新しいニューラルネットワークアーキテクチャを用いる。
論文 参考訳(メタデータ) (2020-12-11T02:37:56Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。