論文の概要: PoseGPT: Chatting about 3D Human Pose
- arxiv url: http://arxiv.org/abs/2311.18836v1
- Date: Thu, 30 Nov 2023 18:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:01:30.064241
- Title: PoseGPT: Chatting about 3D Human Pose
- Title(参考訳): PoseGPT: 人間の3D写真
- Authors: Yao Feng, Jing Lin, Sai Kumar Dwivedi, Yu Sun, Priyanka Patel, Michael
J. Black
- Abstract要約: 本稿では,大規模言語モデル(LLM)を用いて画像やテキスト記述から3次元人間のポーズを理解し,推論するフレームワークであるPoseGPTを紹介する。
我々の研究は、一つの画像や簡単な説明から姿勢を直感的に理解する能力によって動機付けられています。
- 参考スコア(独自算出の注目度): 50.546720988230284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce PoseGPT, a framework employing Large Language Models (LLMs) to
understand and reason about 3D human poses from images or textual descriptions.
Our work is motivated by the human ability to intuitively understand postures
from a single image or a brief description, a process that intertwines image
interpretation, world knowledge, and an understanding of body language.
Traditional human pose estimation methods, whether image-based or text-based,
often lack holistic scene comprehension and nuanced reasoning, leading to a
disconnect between visual data and its real-world implications. PoseGPT
addresses these limitations by embedding SMPL poses as a distinct signal token
within a multi-modal LLM, enabling direct generation of 3D body poses from both
textual and visual inputs. This approach not only simplifies pose prediction
but also empowers LLMs to apply their world knowledge in reasoning about human
poses, fostering two advanced tasks: speculative pose generation and reasoning
about pose estimation. These tasks involve reasoning about humans to generate
3D poses from subtle text queries, possibly accompanied by images. We establish
benchmarks for these tasks, moving beyond traditional 3D pose generation and
estimation methods. Our results show that PoseGPT outperforms existing
multimodal LLMs and task-sepcific methods on these newly proposed tasks.
Furthermore, PoseGPT's ability to understand and generate 3D human poses based
on complex reasoning opens new directions in human pose analysis.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を用いて画像やテキスト記述から3次元人間のポーズを理解し,推論するフレームワークであるPoseGPTを紹介する。
我々の研究は、一つの画像や簡単な説明から姿勢を直感的に理解する能力、画像解釈、世界知識、身体言語を理解するプロセスによって動機付けられている。
従来の人間のポーズ推定手法は、画像ベースでもテキストベースでも、全体像の理解とニュアンスな推論を欠くことが多く、視覚データとその実世界の意味を解き放つ。
PoseGPT は、SMPL のポーズを異なる信号トークンとしてマルチモーダル LLM に埋め込むことによってこれらの制限に対処し、テキスト入力と視覚入力の両方から直接3Dボディのポーズを生成する。
このアプローチはポーズ予測を単純化するだけでなく、llmに人間のポーズに関する推論に世界知識を適用する権限を与え、投機的ポーズ生成とポーズ推定に関する推論という2つの高度なタスクを育む。
これらのタスクには、微妙なテキストクエリから人間の3dポーズを生成するための推論が含まれる。
従来の3Dポーズ生成および推定方法を超えて,これらのタスクのベンチマークを確立する。
以上の結果から,PoseGPT は既存のマルチモーダル LLM やタスク・セプシブな手法よりも優れていることがわかった。
さらに、複雑な推論に基づく3d人間のポーズを理解・生成するsponsgptの能力は、人間のポーズ分析において新たな方向を開く。
関連論文リスト
- UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing [79.68232381605661]
さまざまなモダリティにまたがって人間のポーズを理解し、生成し、編集するためのフレームワークであるUniPoseを提案する。
具体的には、3Dポーズを個別のポーズトークンに変換するためにポーズトークンライザを適用し、統一語彙内のLCMへのシームレスな統合を可能にする。
統一的な学習戦略から恩恵を受けるUniPoseは、さまざまなポーズ関連タスク間で知識を効果的に伝達し、目に見えないタスクに適応し、拡張された能力を示す。
論文 参考訳(メタデータ) (2024-11-25T08:06:30Z) - AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation [60.5897687447003]
AvatarGOはテキスト入力からリアルな4D HOIシーンを生成するために設計された新しいフレームワークである。
我々のフレームワークは、コヒーレントな構成運動を生成するだけでなく、問題に対処する上でより堅牢性を示す。
4Dアバターをオブジェクトインタラクションで合成する最初の試みとして、AvatarGOが人間中心の4Dコンテンツを作るための新しい扉を開くことを願っている。
論文 参考訳(メタデータ) (2024-10-09T17:58:56Z) - PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation [38.958695275774616]
検索方式で訓練された新しいトランスフォーマーモデルを導入し、上記のモダリティの組み合わせを任意の入力として利用できるようにする。
本稿では,(1)オプションのテキストキューによる画像からのSMPL回帰と(2)きめ細かな命令生成のタスクに対する,そのような埋め込みされたポーズ表現の可能性を示す。
論文 参考訳(メタデータ) (2024-09-10T14:09:39Z) - Diverse 3D Human Pose Generation in Scenes based on Decoupled Structure [2.9895817635228017]
そこで本研究では,セマンティックコントロールによるシーン内の多様な3次元ポーズを生成する手法を提案する。
私たちのアプローチは、ポーズ生成、コンタクト生成、シーンに人間を配置する3つのステージで構成されています。
PROXデータセットを用いた実験結果から,より物理的に妥当な相互作用が得られた。
論文 参考訳(メタデータ) (2024-06-09T08:33:10Z) - MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling [59.74064212110042]
mpmcanは、3D人間のポーズ推定、クラッドされた2Dポーズからの3Dポーズ推定、3Dポーズ完了をtextocbsingleフレームワークで処理する。
MPI-INF-3DHPにおいて、広く使われているポーズデータセットの広範な実験とアブレーション研究を行い、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-06-29T10:30:00Z) - PoseScript: Linking 3D Human Poses and Natural Language [38.85620213438554]
このデータセットは、6万以上の人間のポーズとリッチな人間アノテーションによる記述をペアリングする。
データセットのサイズを、データハングリー学習アルゴリズムと互換性のあるスケールに拡大するために、精巧なキャプションプロセスを提案する。
このプロセスは、3Dキーポイント上の単純だがジェネリックなルールのセットを使用して、"posecodes"と呼ばれる低レベルのポーズ情報を抽出する。
自動アノテーションでは、利用可能なデータの量は100kに増加し、人間のキャプションを微調整するための深いモデルを効果的に事前訓練することができる。
論文 参考訳(メタデータ) (2022-10-21T08:18:49Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - Adversarial Synthesis of Human Pose from Text [18.02001711736337]
この研究は、人間レベルのテキスト記述から人間のポーズを合成することに焦点を当てている。
本稿では,条件付き生成逆数ネットワークに基づくモデルを提案する。
定性的かつ定量的な結果から、与えられたテキストと一致する可視的なポーズを合成できることを示す。
論文 参考訳(メタデータ) (2020-05-01T12:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。