論文の概要: Pose Priors from Language Models
- arxiv url: http://arxiv.org/abs/2405.03689v2
- Date: Thu, 15 May 2025 14:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:05.960374
- Title: Pose Priors from Language Models
- Title(参考訳): 言語モデルからのポースプライオリティ
- Authors: Sanjay Subramanian, Evonne Ng, Lea Müller, Dan Klein, Shiry Ginosar, Trevor Darrell,
- Abstract要約: 言語はしばしば物理的相互作用を記述するために使用されるが、ほとんどの3次元人間のポーズ推定方法は、この豊富な情報ソースを見下ろしている。
我々は、コンタクトポーズの再構築に先立って、大型マルチモーダルモデル(LMM)を活用することにより、このギャップを埋める。
- 参考スコア(独自算出の注目度): 74.61186408764559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language is often used to describe physical interaction, yet most 3D human pose estimation methods overlook this rich source of information. We bridge this gap by leveraging large multimodal models (LMMs) as priors for reconstructing contact poses, offering a scalable alternative to traditional methods that rely on human annotations or motion capture data. Our approach extracts contact-relevant descriptors from an LMM and translates them into tractable losses to constrain 3D human pose optimization. Despite its simplicity, our method produces compelling reconstructions for both two-person interactions and self-contact scenarios, accurately capturing the semantics of physical and social interactions. Our results demonstrate that LMMs can serve as powerful tools for contact prediction and pose estimation, offering an alternative to costly manual human annotations or motion capture data. Our code is publicly available at https://prosepose.github.io.
- Abstract(参考訳): 言語はしばしば物理的相互作用を記述するために使用されるが、ほとんどの3次元人間のポーズ推定方法は、この豊富な情報ソースを見下ろしている。
コンタクトポーズを再構築するための先行手段として,大規模なマルチモーダルモデル(LMM)を活用することで,このギャップを埋める。
提案手法は,LMMから接触関連記述子を抽出し,それらをトラクタブルな損失に変換し,人間の3次元ポーズ最適化を制約する。
その単純さにもかかわらず、本手法は、身体的・社会的相互作用のセマンティクスを正確に把握し、対人インタラクションと自己接触シナリオの両方の説得力のある再構成を生成する。
以上の結果から,LMMは人手による手動アノテーションやモーションキャプチャーデータに代わる,接触予測やポーズ推定のための強力なツールとして機能することが示唆された。
私たちのコードはhttps://prosepose.github.io.comで公開されています。
関連論文リスト
- A Guide to Structureless Visual Localization [63.41481414949785]
既知のシーンにおけるクエリ画像のカメラポーズを推定する方法は、自動運転車や拡張現実/複合現実システムなど、多くのアプリケーションの中核的なコンポーネントである。
最先端のビジュアルローカライゼーションアルゴリズムは、シーンの3Dモデルを格納し、カメラポーズ推定モデルにおけるクエリ画像と3Dポイント間の2D-3D対応を利用する。
本論文は、私たちの知る限り、初めて包括的な議論を行い、構造化されていない手法の比較を行うものである。
論文 参考訳(メタデータ) (2025-04-24T15:08:36Z) - SPARK: Self-supervised Personalized Real-time Monocular Face Capture [6.093606972415841]
現在の最先端技術では、パラメトリックな3D顔モデルを幅広いアイデンティティにわたってリアルタイムに再現することができる。
本稿では,被写体の制約のない映像を先行情報として活用し,高精度な3次元顔撮影手法を提案する。
論文 参考訳(メタデータ) (2024-09-12T12:30:04Z) - Reconstructing Action-Conditioned Human-Object Interactions Using
Commonsense Knowledge Priors [42.17542596399014]
本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。
提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。
本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
論文 参考訳(メタデータ) (2022-09-06T13:32:55Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - Contact-Aware Retargeting of Skinned Motion [49.71236739408685]
本稿では,自己接触を保存し,相互接続を防止する動作推定手法を提案する。
入力運動における自己接触と接地を同定し、出力骨格に適用するための動作を最適化する。
実験では,従来の手法を定量的に上回り,近年の成果よりも高い品質で再ターゲットされた動きを評価できるユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-09-15T17:05:02Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - Monocular Real-time Full Body Capture with Inter-part Correlations [66.22835689189237]
本稿では,体と手の形状と運動を1色画像から動的3次元顔モデルと共に推定する,実時間フルボディキャプチャの最初の手法を提案する。
提案手法では,体と手の相関を高い計算効率で活用する新しいニューラルネットワークアーキテクチャを用いる。
論文 参考訳(メタデータ) (2020-12-11T02:37:56Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。