論文の概要: ChatPose: Chatting about 3D Human Pose
- arxiv url: http://arxiv.org/abs/2311.18836v2
- Date: Tue, 23 Apr 2024 17:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-25 16:25:00.311788
- Title: ChatPose: Chatting about 3D Human Pose
- Title(参考訳): ChatPose:3Dヒューマン・ポースについて聞く
- Authors: Yao Feng, Jing Lin, Sai Kumar Dwivedi, Yu Sun, Priyanka Patel, Michael J. Black,
- Abstract要約: ChatPoseは、画像やテキスト記述から3Dの人間のポーズを理解し、推論するためのフレームワークである。
我々の研究は、一つの画像や簡単な説明から姿勢を直感的に理解する能力によって動機付けられています。
- 参考スコア(独自算出の注目度): 47.70287492050979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ChatPose, a framework employing Large Language Models (LLMs) to understand and reason about 3D human poses from images or textual descriptions. Our work is motivated by the human ability to intuitively understand postures from a single image or a brief description, a process that intertwines image interpretation, world knowledge, and an understanding of body language. Traditional human pose estimation and generation methods often operate in isolation, lacking semantic understanding and reasoning abilities. ChatPose addresses these limitations by embedding SMPL poses as distinct signal tokens within a multimodal LLM, enabling the direct generation of 3D body poses from both textual and visual inputs. Leveraging the powerful capabilities of multimodal LLMs, ChatPose unifies classical 3D human pose and generation tasks while offering user interactions. Additionally, ChatPose empowers LLMs to apply their extensive world knowledge in reasoning about human poses, leading to two advanced tasks: speculative pose generation and reasoning about pose estimation. These tasks involve reasoning about humans to generate 3D poses from subtle text queries, possibly accompanied by images. We establish benchmarks for these tasks, moving beyond traditional 3D pose generation and estimation methods. Our results show that ChatPose outperforms existing multimodal LLMs and task-specific methods on these newly proposed tasks. Furthermore, ChatPose's ability to understand and generate 3D human poses based on complex reasoning opens new directions in human pose analysis.
- Abstract(参考訳): 画像やテキストによる記述から3次元の人間のポーズを理解し、推論するために、LLM(Large Language Models)を利用するフレームワークChatPoseを紹介した。
我々の研究は、一つの画像や簡単な説明から姿勢を直感的に理解する能力、画像解釈、世界知識、身体言語を理解するプロセスによって動機付けられている。
従来の人間のポーズ推定と生成方法は、意味的理解と推論能力の欠如により、しばしば孤立して機能する。
ChatPose は、SMPL のポーズを異なる信号トークンとしてマルチモーダル LLM に埋め込むことでこれらの制限に対処し、テキスト入力と視覚入力の両方から3Dボディのポーズを直接生成できる。
マルチモーダルLLMの強力な機能を活用して、ChatPoseはユーザインタラクションを提供しながら、古典的な3Dのポーズと生成タスクを統合する。
加えて、ChatPose は LLM に対して、人間のポーズについての推論において、広範囲な世界知識を適用する権限を与え、投機的なポーズ生成とポーズ推定に関する推論という2つの高度なタスクに繋がる。
これらのタスクは、微妙なテキストクエリから人間の3Dポーズを推論する。
従来の3Dポーズ生成および推定方法を超えて,これらのタスクのベンチマークを確立する。
この結果から,ChatPose は既存のマルチモーダル LLM やタスク固有手法よりも優れた性能を示した。
さらに、複雑な推論に基づいて3D人間のポーズを理解し、生成するChatPoseの能力は、人間のポーズ分析において新しい方向を開く。
関連論文リスト
- Understanding Pose and Appearance Disentanglement in 3D Human Pose
Estimation [72.50214227616728]
ポーズ情報から外見情報を引き離すために,自己教師型で画像表現を学習する手法がいくつか提案されている。
我々は,多種多様な画像合成実験を通じて,自己教師ネットワークの観点から,ゆがみについて検討する。
我々は,対象の自然な外見変化を生起することに焦点を当てた敵対的戦略を設計し,その反対に,絡み合ったネットワークが堅牢であることを期待している。
論文 参考訳(メタデータ) (2023-09-20T22:22:21Z) - LAMP: Leveraging Language Prompts for Multi-person Pose Estimation [8.983326069321981]
LAMP(Language Assisted Multi-person Pose Estimation)と呼ばれる新しいプロンプトベースのポーズ推論手法を提案する。
十分に訓練された言語モデル(CLIP)によって生成されたテキスト表現を利用することで、LAMPはインスタンスと関節レベルにおけるポーズの理解を容易にすることができる。
本稿では,言語指導型学習が単一段階多人数ポーズ推定の性能を向上させることを示す。
論文 参考訳(メタデータ) (2023-07-21T23:00:43Z) - VINECS: Video-based Neural Character Skinning [82.39776643541383]
ポーズ依存のスキン重みを持つ完全リップ文字を作成するための完全自動アプローチを提案する。
提案手法は高密度4Dスキャンに頼らず,最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-03T08:35:53Z) - PoseScript: Linking 3D Human Poses and Natural Language [33.325778872898866]
このデータセットは、6万以上の人間のポーズとリッチな人間アノテーションによる記述をペアリングする。
データセットのサイズを、データハングリー学習アルゴリズムと互換性のあるスケールに拡大するために、精巧なキャプションプロセスを提案する。
このプロセスは、3Dキーポイント上の単純だがジェネリックなルールのセットを使用して、"posecodes"と呼ばれる低レベルのポーズ情報を抽出する。
自動アノテーションでは、利用可能なデータの量は100kに増加し、人間のキャプションを微調整するための深いモデルを効果的に事前訓練することができる。
論文 参考訳(メタデータ) (2022-10-21T08:18:49Z) - Learning Realistic Human Reposing using Cyclic Self-Supervision with 3D
Shape, Pose, and Appearance Consistency [55.94908688207493]
画像品質のギャップを教師付き手法で埋める自己教師型フレームワークSPICEを提案する。
自己超越を可能にする重要な洞察は、様々な方法で人体に関する3D情報を活用することである。
SPICEはDeepFashionデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-10-11T17:48:50Z) - Holistic 3D Human and Scene Mesh Estimation from Single View Images [5.100152971410397]
本稿では,1枚のRGB画像から3Dシーンを知覚するエンド・ツー・エンドのトレーニング可能なモデルを提案する。
本研究では,既存の人体メッシュ法や屋内シーン再構築法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-12-02T23:22:03Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - Adversarial Synthesis of Human Pose from Text [18.02001711736337]
この研究は、人間レベルのテキスト記述から人間のポーズを合成することに焦点を当てている。
本稿では,条件付き生成逆数ネットワークに基づくモデルを提案する。
定性的かつ定量的な結果から、与えられたテキストと一致する可視的なポーズを合成できることを示す。
論文 参考訳(メタデータ) (2020-05-01T12:32:04Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。