論文の概要: PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation
- arxiv url: http://arxiv.org/abs/2409.06535v1
- Date: Tue, 10 Sep 2024 14:09:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 17:25:26.935108
- Title: PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation
- Title(参考訳): PoseEmbroider: 3D, Visual, Semantic-Aware Human Pose Representationを目指して
- Authors: Ginger Delmas, Philippe Weinzaepfel, Francesc Moreno-Noguer, Grégory Rogez,
- Abstract要約: 検索方式で訓練された新しいトランスフォーマーモデルを導入し、上記のモダリティの組み合わせを任意の入力として利用できるようにする。
本稿では,(1)オプションのテキストキューによる画像からのSMPL回帰と(2)きめ細かな命令生成のタスクに対する,そのような埋め込みされたポーズ表現の可能性を示す。
- 参考スコア(独自算出の注目度): 38.958695275774616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning multiple modalities in a latent space, such as images and texts, has shown to produce powerful semantic visual representations, fueling tasks like image captioning, text-to-image generation, or image grounding. In the context of human-centric vision, albeit CLIP-like representations encode most standard human poses relatively well (such as standing or sitting), they lack sufficient acuteness to discern detailed or uncommon ones. Actually, while 3D human poses have been often associated with images (e.g. to perform pose estimation or pose-conditioned image generation), or more recently with text (e.g. for text-to-pose generation), they have seldom been paired with both. In this work, we combine 3D poses, person's pictures and textual pose descriptions to produce an enhanced 3D-, visual- and semantic-aware human pose representation. We introduce a new transformer-based model, trained in a retrieval fashion, which can take as input any combination of the aforementioned modalities. When composing modalities, it outperforms a standard multi-modal alignment retrieval model, making it possible to sort out partial information (e.g. image with the lower body occluded). We showcase the potential of such an embroidered pose representation for (1) SMPL regression from image with optional text cue; and (2) on the task of fine-grained instruction generation, which consists in generating a text that describes how to move from one 3D pose to another (as a fitness coach). Unlike prior works, our model can take any kind of input (image and/or pose) without retraining.
- Abstract(参考訳): 画像やテキストなどの潜在空間における複数のモダリティの調整は、画像キャプション、テキスト・ツー・イメージ生成、画像グラウンドニングといったタスクを刺激する強力なセマンティックな視覚表現を生成することを示した。
人間の中心的な視覚の文脈では、CLIPのような表現は、ほとんどの標準的な人間のポーズを(立ち上がりや座るなどの)比較的よく符号化しているが、細部や珍しいものを見分けるのに十分な鋭さが欠如している。
実際、人間の3Dポーズは画像(例えば、ポーズ推定やポーズ条件の画像生成)やテキスト(例えば、テキスト・ツー・プレイス・ジェネレーション)に関連付けられていることが多いが、両者がペアリングされることはめったにない。
本研究では,3次元のポーズ,人物の写真,テキストによるポーズ記述を組み合わせることで,人間のポーズ表現を3次元・視覚的・意味的に表現する。
検索方式で訓練された新しいトランスフォーマーモデルを導入し、上記のモダリティの組み合わせを任意の入力として利用できるようにする。
モダリティを構成する際には、標準のマルチモーダルアライメント検索モデルよりも優れており、部分的な情報(例えば、下半身を隠蔽した画像)をソートすることができる。
本稿では,(1)オプションテキストキューによる画像からのSMPL回帰と(2)3Dポーズから別の3Dポーズへ(フィットネスコーチとして)移動する方法を記述したテキストを生成するための細粒度命令生成の課題について,その可能性を示す。
以前の作業とは異なり、我々のモデルは再トレーニングなしにどんな種類の入力(画像やポーズ)でも受けられる。
関連論文リスト
- ChatPose: Chatting about 3D Human Pose [47.70287492050979]
ChatPoseは、画像やテキスト記述から3Dの人間のポーズを理解し、推論するためのフレームワークである。
我々の研究は、一つの画像や簡単な説明から姿勢を直感的に理解する能力によって動機付けられています。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling [59.74064212110042]
mpmcanは、3D人間のポーズ推定、クラッドされた2Dポーズからの3Dポーズ推定、3Dポーズ完了をtextocbsingleフレームワークで処理する。
MPI-INF-3DHPにおいて、広く使われているポーズデータセットの広範な実験とアブレーション研究を行い、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-06-29T10:30:00Z) - PoseScript: Linking 3D Human Poses and Natural Language [38.85620213438554]
このデータセットは、6万以上の人間のポーズとリッチな人間アノテーションによる記述をペアリングする。
データセットのサイズを、データハングリー学習アルゴリズムと互換性のあるスケールに拡大するために、精巧なキャプションプロセスを提案する。
このプロセスは、3Dキーポイント上の単純だがジェネリックなルールのセットを使用して、"posecodes"と呼ばれる低レベルのポーズ情報を抽出する。
自動アノテーションでは、利用可能なデータの量は100kに増加し、人間のキャプションを微調整するための深いモデルを効果的に事前訓練することができる。
論文 参考訳(メタデータ) (2022-10-21T08:18:49Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - Single-view 3D Body and Cloth Reconstruction under Complex Poses [37.86174829271747]
既存の暗黙の関数ベースモデルを拡張して、任意のポーズと自己排他的な手足を持つ人間の画像を扱う。
入力画像を低精細度で3次元のボディ形状にマッピングする暗黙の関数を学習する。
次に、スムーズな表面を条件とした変位マップを学習し、衣服や身体の高周波の詳細を符号化する。
論文 参考訳(メタデータ) (2022-05-09T07:34:06Z) - Learning Realistic Human Reposing using Cyclic Self-Supervision with 3D
Shape, Pose, and Appearance Consistency [55.94908688207493]
画像品質のギャップを教師付き手法で埋める自己教師型フレームワークSPICEを提案する。
自己超越を可能にする重要な洞察は、様々な方法で人体に関する3D情報を活用することである。
SPICEはDeepFashionデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-10-11T17:48:50Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - Chained Representation Cycling: Learning to Estimate 3D Human Pose and
Shape by Cycling Between Representations [73.11883464562895]
本稿では,教師なし,あるいは教師なしの学習を容易にする新しいアーキテクチャを提案する。
本研究では,非ペア画像と無注釈画像から3次元人物のポーズと形状を学習することにより,その手法を実証する。
人間をモデル化するための結果を示す一方で、私たちの定式化は一般的であり、他の視覚問題にも適用できる。
論文 参考訳(メタデータ) (2020-01-06T14:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。