論文の概要: PoseScript: Linking 3D Human Poses and Natural Language
- arxiv url: http://arxiv.org/abs/2210.11795v2
- Date: Fri, 19 Jan 2024 14:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 19:37:56.515395
- Title: PoseScript: Linking 3D Human Poses and Natural Language
- Title(参考訳): PoseScript: 3Dの人間と自然言語のリンク
- Authors: Ginger Delmas, Philippe Weinzaepfel, Thomas Lucas, Francesc
Moreno-Noguer, Gr\'egory Rogez
- Abstract要約: このデータセットは、6万以上の人間のポーズとリッチな人間アノテーションによる記述をペアリングする。
データセットのサイズを、データハングリー学習アルゴリズムと互換性のあるスケールに拡大するために、精巧なキャプションプロセスを提案する。
このプロセスは、3Dキーポイント上の単純だがジェネリックなルールのセットを使用して、"posecodes"と呼ばれる低レベルのポーズ情報を抽出する。
自動アノテーションでは、利用可能なデータの量は100kに増加し、人間のキャプションを微調整するための深いモデルを効果的に事前訓練することができる。
- 参考スコア(独自算出の注目度): 33.325778872898866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language plays a critical role in many computer vision applications,
such as image captioning, visual question answering, and cross-modal retrieval,
to provide fine-grained semantic information. Unfortunately, while human pose
is key to human understanding, current 3D human pose datasets lack detailed
language descriptions. To address this issue, we have introduced the PoseScript
dataset. This dataset pairs more than six thousand 3D human poses from AMASS
with rich human-annotated descriptions of the body parts and their spatial
relationships. Additionally, to increase the size of the dataset to a scale
that is compatible with data-hungry learning algorithms, we have proposed an
elaborate captioning process that generates automatic synthetic descriptions in
natural language from given 3D keypoints. This process extracts low-level pose
information, known as "posecodes", using a set of simple but generic rules on
the 3D keypoints. These posecodes are then combined into higher level textual
descriptions using syntactic rules. With automatic annotations, the amount of
available data significantly scales up (100k), making it possible to
effectively pretrain deep models for finetuning on human captions. To showcase
the potential of annotated poses, we present three multi-modal learning tasks
that utilize the PoseScript dataset. Firstly, we develop a pipeline that maps
3D poses and textual descriptions into a joint embedding space, allowing for
cross-modal retrieval of relevant poses from large-scale datasets. Secondly, we
establish a baseline for a text-conditioned model generating 3D poses. Thirdly,
we present a learned process for generating pose descriptions. These
applications demonstrate the versatility and usefulness of annotated poses in
various tasks and pave the way for future research in the field.
- Abstract(参考訳): 自然言語は、画像キャプション、視覚的質問応答、モーダル検索など、多くのコンピュータビジョンアプリケーションにおいて重要な役割を担い、きめ細かい意味情報を提供する。
残念ながら、人間のポーズは人間の理解の鍵であるが、現在の3D人間のポーズデータセットには詳細な言語記述がない。
この問題に対処するため、私たちはPoseScriptデータセットを導入しました。
このデータセットは、AMASSから6万個以上の人間のポーズと、体の部分とその空間的関係に関する豊富な人間による記述をペアリングする。
さらに,データセットのサイズを,データ・ハングリー学習アルゴリズムと互換性のあるスケールに拡大するために,与えられた3次元キーポイントから自然言語で自動合成記述を生成する精巧なキャプションプロセスを提案する。
このプロセスは、3Dキーポイント上の単純だがジェネリックなルールのセットを使用して、"posecodes"と呼ばれる低レベルのポーズ情報を抽出する。
これらのポーズコードは、構文規則を用いて高レベルのテキスト記述に結合される。
自動アノテーションでは、利用可能なデータの量は100kに増加し、人間のキャプションを微調整するための深いモデルを効果的に事前訓練することができる。
アノテーション付きポーズの可能性を示すために,PoseScriptデータセットを利用する3つのマルチモーダル学習タスクを提案する。
まず,3次元ポーズとテキスト記述を共同埋め込み空間にマッピングし,大規模データセットから関連するポーズを相互に検索するパイプラインを開発する。
次に、3dポーズを生成するテキスト条件付きモデルのベースラインを確立する。
第3に,ポーズ記述を生成するための学習プロセスを提案する。
これらの応用は、様々なタスクにおいて注釈付きポーズの汎用性と有用性を示し、今後の研究の道を開くものである。
関連論文リスト
- POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images [32.33170182669095]
入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。
アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。
出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
論文 参考訳(メタデータ) (2024-01-17T18:51:53Z) - PointVoxel: A Simple and Effective Pipeline for Multi-View Multi-Modal
3D Human Pose Estimation [33.53821868456018]
我々は、マルチビューRGBとポイントクラウド入力を融合して3D人間のポーズを得るPointVoxelと呼ばれるパイプラインを開発した。
難シナリオにおける3次元ポーズラベルのアノテートという課題を克服するため,我々は合成データセット生成装置を開発した。
論文 参考訳(メタデータ) (2023-12-11T14:30:11Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [45.70819890915097]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - PoseGPT: Chatting about 3D Human Pose [50.546720988230284]
本稿では,大規模言語モデル(LLM)を用いて画像やテキスト記述から3次元人間のポーズを理解し,推論するフレームワークであるPoseGPTを紹介する。
我々の研究は、一つの画像や簡単な説明から姿勢を直感的に理解する能力によって動機付けられています。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Decanus to Legatus: Synthetic training for 2D-3D human pose lifting [26.108023246654646]
10個の手作り3Dポーズ(Decanus)に基づく3Dポーズ分布から無限個の合成人間のポーズ(Legatus)を生成するアルゴリズムを提案する。
この結果から,特定データセットの実際のデータを用いた手法に匹敵する3次元ポーズ推定性能を,ゼロショット設定で実現し,フレームワークの可能性を示した。
論文 参考訳(メタデータ) (2022-10-05T13:10:19Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Liquid Warping GAN with Attention: A Unified Framework for Human Image
Synthesis [58.05389586712485]
我々は、人間の動きの模倣、外見の移入、新しい視点の合成など、人間の画像合成に取り組む。
本稿では,ポーズと形状を乱す3次元ボディーメッシュ回収モジュールを提案する。
我々はまた、人間の動きの模倣、外観伝達、新しいビュー合成を評価するために、新しいデータセット、すなわちiPERデータセットを構築した。
論文 参考訳(メタデータ) (2020-11-18T02:57:47Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。