論文の概要: Pose Priors from Language Models
- arxiv url: http://arxiv.org/abs/2405.03689v1
- Date: Mon, 6 May 2024 17:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-07 12:57:40.717004
- Title: Pose Priors from Language Models
- Title(参考訳): 言語モデルからのポースプライオリティ
- Authors: Sanjay Subramanian, Evonne Ng, Lea Müller, Dan Klein, Shiry Ginosar, Trevor Darrell,
- Abstract要約: 本稿では,正確な物理的接触制約を強制するゼロショットポーズ最適化法を提案する。
本手法は,近接した人物の驚くほど説得力のあるポーズを再現する。
従来の手法とは異なり,本手法は自己接触と対人接触を解消するための統一的な枠組みを提供する。
- 参考スコア(独自算出の注目度): 74.61186408764559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a zero-shot pose optimization method that enforces accurate physical contact constraints when estimating the 3D pose of humans. Our central insight is that since language is often used to describe physical interaction, large pretrained text-based models can act as priors on pose estimation. We can thus leverage this insight to improve pose estimation by converting natural language descriptors, generated by a large multimodal model (LMM), into tractable losses to constrain the 3D pose optimization. Despite its simplicity, our method produces surprisingly compelling pose reconstructions of people in close contact, correctly capturing the semantics of the social and physical interactions. We demonstrate that our method rivals more complex state-of-the-art approaches that require expensive human annotation of contact points and training specialized models. Moreover, unlike previous approaches, our method provides a unified framework for resolving self-contact and person-to-person contact.
- Abstract(参考訳): 本研究では,人間の3次元ポーズを推定する際に,正確な物理的接触制約を強制するゼロショットポーズ最適化手法を提案する。
我々の中心的な洞察は、言語は物理的相互作用を記述するためにしばしば使用されるため、大きな事前訓練されたテキストベースのモデルは、ポーズ推定の先行として振る舞うことができるということである。
そこで我々は,この知見を利用して,LMM(Large Multimodal Model)によって生成された自然言語記述子をトラクタブルな損失に変換することにより,ポーズ推定を改善することができる。
そのシンプルさにもかかわらず、我々の手法は驚くほど説得力のある人物のポーズを再現し、社会的および身体的相互作用のセマンティクスを正確に捉えている。
本手法は,接触点の人為的アノテーションや特化モデルの訓練を必要とする,より複雑な最先端の手法と競合することを示す。
さらに,従来の手法と異なり,本手法は自己接触と対人接触を解消するための統一的な枠組みを提供する。
関連論文リスト
- Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning [50.76723760768117]
既存の人間のポーズ推定手法では、既存の映像からもっともらしい密接な相互作用を回復できない。
人間の外見は、これらの障害に対処するための簡単な手がかりとなる。
本研究では,人間の外見,社会的プロキシ,物理法則に制約された身体接触により,正確な対話動作を再構築するための2分岐最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-03T12:19:26Z) - InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing [36.29681929804816]
特定のデータセットをトレーニングすることなく,新たなゼロショット3DHOI生成フレームワークを提案する。
トレーニング済みの2次元画像拡散モデルを用いて、見えない物体を解析し、接触点を抽出する。
次に、細粒度、精密、そして自然な相互作用を生成するための詳細な最適化を導入し、3Dオブジェクトと関連する身体部分との間の現実的な3D接触を強制する。
論文 参考訳(メタデータ) (2025-05-30T07:53:55Z) - A Guide to Structureless Visual Localization [63.41481414949785]
既知のシーンにおけるクエリ画像のカメラポーズを推定する方法は、自動運転車や拡張現実/複合現実システムなど、多くのアプリケーションの中核的なコンポーネントである。
最先端のビジュアルローカライゼーションアルゴリズムは、シーンの3Dモデルを格納し、カメラポーズ推定モデルにおけるクエリ画像と3Dポイント間の2D-3D対応を利用する。
本論文は、私たちの知る限り、初めて包括的な議論を行い、構造化されていない手法の比較を行うものである。
論文 参考訳(メタデータ) (2025-04-24T15:08:36Z) - Adapting Human Mesh Recovery with Vision-Language Feedback [17.253535686451897]
視覚言語モデルを用いて対話的な身体部分記述を生成する。
我々はテキストエンコーダとポーズVQ-VAEをトレーニングし、テキストを共有潜在空間内のボディポーズにアライメントする。
モデルは正確な3D知覚と画像の一貫性を持ったポーズを生成することができる。
論文 参考訳(メタデータ) (2025-02-06T07:42:00Z) - SPARK: Self-supervised Personalized Real-time Monocular Face Capture [6.093606972415841]
現在の最先端技術では、パラメトリックな3D顔モデルを幅広いアイデンティティにわたってリアルタイムに再現することができる。
本稿では,被写体の制約のない映像を先行情報として活用し,高精度な3次元顔撮影手法を提案する。
論文 参考訳(メタデータ) (2024-09-12T12:30:04Z) - StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset [56.71580976007712]
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。
この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。
最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
論文 参考訳(メタデータ) (2024-07-30T04:57:21Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Generative Proxemics: A Prior for 3D Social Interaction from Images [32.547187575678464]
社会的相互作用は人間の行動とコミュニケーションの基本的な側面である。
近親密なソーシャルインタラクションにおける2人の3Dプロキセメクスの事前学習を行う新しいアプローチを提案する。
提案手法は,ノイズの多い初期推定値から正確な3次元ソーシャルインタラクションを復元し,最先端の手法より優れる。
論文 参考訳(メタデータ) (2023-06-15T17:59:20Z) - Reconstructing Action-Conditioned Human-Object Interactions Using
Commonsense Knowledge Priors [42.17542596399014]
本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。
提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。
本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
論文 参考訳(メタデータ) (2022-09-06T13:32:55Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - Contact-Aware Retargeting of Skinned Motion [49.71236739408685]
本稿では,自己接触を保存し,相互接続を防止する動作推定手法を提案する。
入力運動における自己接触と接地を同定し、出力骨格に適用するための動作を最適化する。
実験では,従来の手法を定量的に上回り,近年の成果よりも高い品質で再ターゲットされた動きを評価できるユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-09-15T17:05:02Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - Monocular Real-time Full Body Capture with Inter-part Correlations [66.22835689189237]
本稿では,体と手の形状と運動を1色画像から動的3次元顔モデルと共に推定する,実時間フルボディキャプチャの最初の手法を提案する。
提案手法では,体と手の相関を高い計算効率で活用する新しいニューラルネットワークアーキテクチャを用いる。
論文 参考訳(メタデータ) (2020-12-11T02:37:56Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。