論文の概要: CoT-Pose: Chain-of-Thought Reasoning for 3D Pose Generation from Abstract Prompts
- arxiv url: http://arxiv.org/abs/2508.07540v1
- Date: Mon, 11 Aug 2025 01:43:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.905567
- Title: CoT-Pose: Chain-of-Thought Reasoning for 3D Pose Generation from Abstract Prompts
- Title(参考訳): CoT-Pose:抽象プロンプトからの3Dポッド生成のためのチェーン・オブ・サート推論
- Authors: Junuk Cha, Jihyeon Kim,
- Abstract要約: ポーズ生成プロセスにCoT推論を組み込んだ新しいフレームワークを導入する。
本稿では,抽象的なプロンプト,詳細なプロンプト,対応する3Dポーズを自動生成するデータ合成パイプラインを提案する。
実験結果から,我々の推論モデルであるCoT-Poseが,有意かつ意味的に整合したポーズを効果的に生成できることが示唆された。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in multi-modal large language models (MLLMs) and chain-of-thought (CoT) reasoning have led to significant progress in image and text generation tasks. However, the field of 3D human pose generation still faces critical limitations. Most existing text-to-pose models rely heavily on detailed (low-level) prompts that explicitly describe joint configurations. In contrast, humans tend to communicate actions and intentions using abstract (high-level) language. This mismatch results in a practical challenge for deploying pose generation systems in real-world scenarios. To bridge this gap, we introduce a novel framework that incorporates CoT reasoning into the pose generation process, enabling the interpretation of abstract prompts into accurate 3D human poses. We further propose a data synthesis pipeline that automatically generates triplets of abstract prompts, detailed prompts, and corresponding 3D poses for training process. Experimental results demonstrate that our reasoning-enhanced model, CoT-Pose, can effectively generate plausible and semantically aligned poses from abstract textual inputs. This work highlights the importance of high-level understanding in pose generation and opens new directions for reasoning-enhanced approach for human pose generation.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)やチェーン・オブ・シント(CoT)推論の最近の進歩は、画像およびテキスト生成タスクの大幅な進歩をもたらした。
しかし、人間のポーズ生成の分野は依然として限界に直面している。
既存のテキスト・ツー・プレイスモデルの多くは、共同構成を明確に記述する詳細な(低レベルの)プロンプトに大きく依存している。
対照的に、人間は抽象的な(ハイレベルな)言語を使って行動や意図を伝える傾向がある。
このミスマッチは、現実世界のシナリオにポーズ生成システムをデプロイする実践的な課題をもたらす。
このギャップを埋めるために、我々は、CoT推論をポーズ生成プロセスに組み込んだ新しいフレームワークを導入し、抽象的なプロンプトの解釈を正確な3次元人間のポーズにすることができるようにした。
さらに,抽象的なプロンプト,詳細なプロンプト,およびそれに対応する3Dポーズを自動的に生成するデータ合成パイプラインを提案する。
実験結果から,我々の推論強化モデルであるCoT-Poseが,抽象テキスト入力から有意かつ意味的に整合したポーズを効果的に生成できることが示唆された。
この研究は、ポーズ生成におけるハイレベルな理解の重要性を強調し、人間のポーズ生成のための推論強化アプローチの新しい方向性を開く。
関連論文リスト
- UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing [79.68232381605661]
さまざまなモダリティにまたがって人間のポーズを理解し、生成し、編集するためのフレームワークであるUniPoseを提案する。
具体的には、3Dポーズを個別のポーズトークンに変換するためにポーズトークンライザを適用し、統一語彙内のLCMへのシームレスな統合を可能にする。
統一的な学習戦略から恩恵を受けるUniPoseは、さまざまなポーズ関連タスク間で知識を効果的に伝達し、目に見えないタスクに適応し、拡張された能力を示す。
論文 参考訳(メタデータ) (2024-11-25T08:06:30Z) - PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation [38.958695275774616]
検索方式で訓練された新しいトランスフォーマーモデルを導入し、上記のモダリティの組み合わせを任意の入力として利用できるようにする。
本稿では,(1)オプションのテキストキューによる画像からのSMPL回帰と(2)きめ細かな命令生成のタスクに対する,そのような埋め込みされたポーズ表現の可能性を示す。
論文 参考訳(メタデータ) (2024-09-10T14:09:39Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - ChatPose: Chatting about 3D Human Pose [47.70287492050979]
ChatPoseは、画像やテキスト記述から3Dの人間のポーズを理解し、推論するためのフレームワークである。
我々の研究は、一つの画像や簡単な説明から姿勢を直感的に理解する能力によって動機付けられています。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation
with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。
NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。
本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文 参考訳(メタデータ) (2022-10-28T06:20:55Z) - PoseScript: Linking 3D Human Poses and Natural Language [38.85620213438554]
このデータセットは、6万以上の人間のポーズとリッチな人間アノテーションによる記述をペアリングする。
データセットのサイズを、データハングリー学習アルゴリズムと互換性のあるスケールに拡大するために、精巧なキャプションプロセスを提案する。
このプロセスは、3Dキーポイント上の単純だがジェネリックなルールのセットを使用して、"posecodes"と呼ばれる低レベルのポーズ情報を抽出する。
自動アノテーションでは、利用可能なデータの量は100kに増加し、人間のキャプションを微調整するための深いモデルを効果的に事前訓練することができる。
論文 参考訳(メタデータ) (2022-10-21T08:18:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。