論文の概要: PromptHMR: Promptable Human Mesh Recovery
- arxiv url: http://arxiv.org/abs/2504.06397v1
- Date: Tue, 08 Apr 2025 19:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:33.718237
- Title: PromptHMR: Promptable Human Mesh Recovery
- Title(参考訳): PromptHMR: PromptHMRによる人体メッシュの回復
- Authors: Yufu Wang, Yu Sun, Priyanka Patel, Kostas Daniilidis, Michael J. Black, Muhammed Kocabas,
- Abstract要約: ヒューマン・ポーズ・アンド・シェイプ(HPS)推定は、混み合ったシーン、対人インタラクション、一視点再構築といった様々なシナリオにおける課題を提示する。
本稿では,空間的および意味的なプロンプトを通じてHPS推定を再構成するトランスフォーマーに基づくプロンプトHMRを提案する。
本手法はシーンコンテキストを維持するために全画像を処理し,複数の入力モダリティを受け入れる。
- 参考スコア(独自算出の注目度): 68.65788167859817
- License:
- Abstract: Human pose and shape (HPS) estimation presents challenges in diverse scenarios such as crowded scenes, person-person interactions, and single-view reconstruction. Existing approaches lack mechanisms to incorporate auxiliary "side information" that could enhance reconstruction accuracy in such challenging scenarios. Furthermore, the most accurate methods rely on cropped person detections and cannot exploit scene context while methods that process the whole image often fail to detect people and are less accurate than methods that use crops. While recent language-based methods explore HPS reasoning through large language or vision-language models, their metric accuracy is well below the state of the art. In contrast, we present PromptHMR, a transformer-based promptable method that reformulates HPS estimation through spatial and semantic prompts. Our method processes full images to maintain scene context and accepts multiple input modalities: spatial prompts like bounding boxes and masks, and semantic prompts like language descriptions or interaction labels. PromptHMR demonstrates robust performance across challenging scenarios: estimating people from bounding boxes as small as faces in crowded scenes, improving body shape estimation through language descriptions, modeling person-person interactions, and producing temporally coherent motions in videos. Experiments on benchmarks show that PromptHMR achieves state-of-the-art performance while offering flexible prompt-based control over the HPS estimation process.
- Abstract(参考訳): ヒューマン・ポーズ・アンド・シェイプ(HPS)推定は、混み合ったシーン、対人インタラクション、一視点再構築といった様々なシナリオにおける課題を提示する。
既存のアプローチでは、このような困難なシナリオにおける再構築精度を高めるための補助的な"サイド情報"を組み込むメカニズムが欠如している。
さらに、最も正確な方法は、収穫された人物の検出に頼り、シーンコンテキストを活用できない一方で、画像全体を処理する方法は、しばしば人を検出するのに失敗し、作物を使用する方法よりも正確ではない。
最近の言語ベースの手法では、大きな言語や視覚言語モデルを通してHPS推論を探索しているが、その精度は最先端の精度よりはるかに低い。
対照的に、PmptHMRは、空間的および意味的プロンプトを通してHPS推定を再構成するトランスフォーマーベースのプロンプトブル手法である。
本手法は,シーンコンテキストを維持するために全画像を処理するとともに,境界ボックスやマスクなどの空間的プロンプトや,言語記述や対話ラベルなどの意味的プロンプトなど,複数の入力モダリティを受け入れる。
PromptHMRは、混み合ったシーンの顔と同じくらい小さなボックスから人を推定し、言語記述による身体の形状の推定を改善し、対人インタラクションをモデル化し、ビデオ内で時間的に一貫性のある動きを発生させるという、困難なシナリオにまたがる堅牢なパフォーマンスを示す。
ベンチマーク実験により、PromptHMRはHPS推定プロセスに対するフレキシブルなプロンプトベースの制御を提供しながら、最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Exploring Mutual Cross-Modal Attention for Context-Aware Human Affordance Generation [18.73832646369506]
本研究では,2次元シーンにおける空き時間予測のためのシーンコンテキストを符号化する新しいクロスアテンション機構を提案する。
まず,グローバルシーンのコンテキストエンコーディングに条件付き可変オートエンコーダを用いて,シーン内の人物の確率的位置をサンプリングする。
次に、局所文脈エンコーディングの分類器を用いて、既存の人間のポーズ候補のセットから潜在的ポーズテンプレートを予測する。
論文 参考訳(メタデータ) (2025-02-19T11:24:45Z) - DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。
私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。
これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文 参考訳(メタデータ) (2025-02-05T16:35:42Z) - Leveraging Stable Diffusion for Monocular Depth Estimation via Image Semantic Encoding [1.0445560141983634]
視覚的特徴から直接文脈情報を抽出する画像に基づくセマンティック埋め込みを提案する。
提案手法は,屋外シーンの処理におけるCLIP埋め込みの欠点に対処しながら,最先端モデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-02-01T15:37:22Z) - Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model [25.47573567479831]
本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。
提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
論文 参考訳(メタデータ) (2024-05-16T17:59:21Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - LAMP: Leveraging Language Prompts for Multi-person Pose Estimation [8.983326069321981]
LAMP(Language Assisted Multi-person Pose Estimation)と呼ばれる新しいプロンプトベースのポーズ推論手法を提案する。
十分に訓練された言語モデル(CLIP)によって生成されたテキスト表現を利用することで、LAMPはインスタンスと関節レベルにおけるポーズの理解を容易にすることができる。
本稿では,言語指導型学習が単一段階多人数ポーズ推定の性能を向上させることを示す。
論文 参考訳(メタデータ) (2023-07-21T23:00:43Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。