Fugu-MT 論文翻訳(概要): PoseScript: 3D Human Poses from Natural Language

論文の概要: PoseScript: 3D Human Poses from Natural Language

arxiv url: http://arxiv.org/abs/2210.11795v1
Date: Fri, 21 Oct 2022 08:18:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 15:10:23.739679
Title: PoseScript: 3D Human Poses from Natural Language
Title（参考訳）: posescript:自然言語による3d人間のポーズ
Authors: Ginger Delmas, Philippe Weinzaepfel, Thomas Lucas, Francesc Moreno-Noguer, Gr\'egory Rogez
Abstract要約: このデータセットは、数千の人間のポーズとリッチな人間アノテーションによる記述をペアリングする。このデータセットのサイズを、一般的なデータ空腹学習アルゴリズムと互換性のあるスケールに拡大するために、精巧なキャプションプロセスを提案する。このプロセスは、3Dキーポイント上の単純だがジェネリックなルールのセットを使用して、低レベルのポーズ情報 -- ポーズコード -- を抽出する。
参考スコア（独自算出の注目度）: 33.809437369072796
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Natural language is leveraged in many computer vision tasks such as image captioning, cross-modal retrieval or visual question answering, to provide fine-grained semantic information. While human pose is key to human understanding, current 3D human pose datasets lack detailed language descriptions. In this work, we introduce the PoseScript dataset, which pairs a few thousand 3D human poses from AMASS with rich human-annotated descriptions of the body parts and their spatial relationships. To increase the size of this dataset to a scale compatible with typical data hungry learning algorithms, we propose an elaborate captioning process that generates automatic synthetic descriptions in natural language from given 3D keypoints. This process extracts low-level pose information -- the posecodes -- using a set of simple but generic rules on the 3D keypoints. The posecodes are then combined into higher level textual descriptions using syntactic rules. Automatic annotations substantially increase the amount of available data, and make it possible to effectively pretrain deep models for finetuning on human captions. To demonstrate the potential of annotated poses, we show applications of the PoseScript dataset to retrieval of relevant poses from large-scale datasets and to synthetic pose generation, both based on a textual pose description.
Abstract（参考訳）: 自然言語は、画像キャプション、クロスモーダル検索、視覚質問応答などの多くのコンピュータビジョンタスクで活用され、きめ細かい意味情報を提供する。人間のポーズは人間の理解の鍵であるが、現在の3D人間のポーズデータセットには詳細な言語記述がない。本研究では,体の一部とその空間的関係を人間に注釈を付したリッチな記述をアマスから数千の3dポーズと組み合わせた,posescriptデータセットを提案する。このデータセットのサイズを、典型的なデータ空腹学習アルゴリズムと互換性のあるスケールに拡大するために、与えられた3Dキーポイントから自然言語の自動合成記述を生成する精巧なキャプションプロセスを提案する。このプロセスは、3dキーポイント上の単純だが汎用的なルールセットを使用して、低レベルのポーズ情報 -- ポーズコード -- を抽出する。ポーズコードは、構文ルールを使用して高レベルのテキスト記述に結合される。自動アノテーションは利用可能なデータ量を大幅に増加させ、人間のキャプションを微調整するディープモデルを効果的に事前訓練できるようにする。注釈付きポーズの可能性を示すために,大規模データセットから関連するポーズの検索や合成ポーズ生成に,テキスト的ポーズ記述に基づいて,posescriptデータセットの応用を示す。

関連論文リスト

Descrip3D: Enhancing Large Language Model-based 3D Scene Understanding with Object-Level Text Descriptions [28.185661905201222]
Descrip3Dは自然言語を使ってオブジェクト間の関係を明示的にエンコードする新しいフレームワークである。グラウンド、キャプション、質問応答など、さまざまなタスクを統一した推論を可能にする。
論文参考訳（メタデータ） (2025-07-19T09:19:16Z)
AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。 AugReferは3次元視覚的接地を前進させる新しい手法である。
論文参考訳（メタデータ） (2025-01-16T09:57:40Z)
3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding [0.5755004576310334]
3Dシーングラフはコンパクトなシーンモデルを表し、オブジェクトに関する情報とそれらの間のセマンティックな関係を格納する。本研究では,3Dシーングラフの学習可能な表現を構築するための3DGraphLLMを提案する。学習可能な表現は、3次元視覚言語タスクの実行にLLMの入力として使用される。
論文参考訳（メタデータ） (2024-12-24T14:21:58Z)
PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation [38.958695275774616]
検索方式で訓練された新しいトランスフォーマーモデルを導入し、上記のモダリティの組み合わせを任意の入力として利用できるようにする。本稿では,(1)オプションのテキストキューによる画像からのSMPL回帰と(2)きめ細かな命令生成のタスクに対する,そのような埋め込みされたポーズ表現の可能性を示す。
論文参考訳（メタデータ） (2024-09-10T14:09:39Z)
Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文参考訳（メタデータ） (2024-05-16T18:03:41Z)
Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文参考訳（メタデータ） (2023-12-13T14:27:45Z)
GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。 GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文参考訳（メタデータ） (2023-11-30T18:59:58Z)
ChatPose: Chatting about 3D Human Pose [47.70287492050979]
ChatPoseは、画像やテキスト記述から3Dの人間のポーズを理解し、推論するためのフレームワークである。我々の研究は、一つの画像や簡単な説明から姿勢を直感的に理解する能力によって動機付けられています。
論文参考訳（メタデータ） (2023-11-30T18:59:52Z)
Lowis3D: Language-Driven Open-World Instance-Level 3D Scene Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文参考訳（メタデータ） (2023-08-01T07:50:14Z)
Unsupervised 3D Human Pose Representation with Viewpoint and Pose Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2020-07-14T14:25:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。