Fugu-MT 論文翻訳(概要): Generating Fine-Grained Human Motions Using ChatGPT-Refined Descriptions

論文の概要: Generating Fine-Grained Human Motions Using ChatGPT-Refined Descriptions

arxiv url: http://arxiv.org/abs/2312.02772v1
Date: Tue, 5 Dec 2023 14:01:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 15:30:57.804580
Title: Generating Fine-Grained Human Motions Using ChatGPT-Refined Descriptions
Title（参考訳）: chatgpt-refined descriptionsを用いたきめ細かい人間の動きの生成
Authors: Xu Shi, Chuanchen Luo, Junran Peng, Hongwen Zhang, Yunlian Sun
Abstract要約: 本研究では,人間の動き生成のためのFG-MDM(Fin-Grained Human Motion Diffusion Model)というフレームワークを提案する。 FG-MDMは、トレーニングデータの分布の外においても、きめ細かな、スタイリングされた動きを生成することができる。我々は、HumanML3DとKITのためのきめ細かいテキストアノテーションをリリースします。
参考スコア（独自算出の注目度）: 21.66089428631798
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, significant progress has been made in text-based motion generation, enabling the generation of diverse and high-quality human motions that conform to textual descriptions. However, it remains challenging to generate fine-grained or stylized motions due to the lack of datasets annotated with detailed textual descriptions. By adopting a divide-and-conquer strategy, we propose a new framework named Fine-Grained Human Motion Diffusion Model (FG-MDM) for human motion generation. Specifically, we first parse previous vague textual annotation into fine-grained description of different body parts by leveraging a large language model (GPT-3.5). We then use these fine-grained descriptions to guide a transformer-based diffusion model. FG-MDM can generate fine-grained and stylized motions even outside of the distribution of the training data. Our experimental results demonstrate the superiority of FG-MDM over previous methods, especially the strong generalization capability. We will release our fine-grained textual annotations for HumanML3D and KIT.
Abstract（参考訳）: 近年,テキストベースモーション生成において,テキスト記述に準拠した多様で高品質なヒューマンモーションの生成が実現されている。しかしながら、詳細なテキスト記述に注釈が付されたデータセットがないため、細粒度やスタイリッシュな動きを生成することは依然として困難である。本稿では,人間の運動生成のための細粒度ヒューマンモーション拡散モデル(fg-mdm)という新しい枠組みを提案する。具体的には,従来の曖昧なテキストアノテーションを,大言語モデル(GPT-3.5)を用いて,各部位の細粒度記述に解析する。次に、これらの細かな記述を用いてトランスフォーマーベースの拡散モデルを導出する。 fg−mdmは、トレーニングデータの分布の外でも細粒度及びスタイリゼーション動作を生成することができる。実験により,FG-MDMが従来の手法よりも優れていることを示す。我々は、HumanML3DとKITのためのきめ細かいテキストアノテーションをリリースします。

関連論文リスト

GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
PackDiT: Joint Human Motion and Text Generation via Mutual Prompting [22.53146582495341]
PackDiTは、様々なタスクを同時に実行できる最初の拡散ベースの生成モデルである。我々はHumanML3Dデータセット上でPackDiTをトレーニングし、FIDスコア0.106で最先端のテキスト・トゥ・モーションのパフォーマンスを達成する。さらに本実験は, 拡散モデルが, 自動回帰モデルに匹敵する性能を達成し, 動画像生成に有効であることを示す。
論文参考訳（メタデータ） (2025-01-27T22:51:45Z)
Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance [48.986552871497]
本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2024-03-26T18:41:07Z)
Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。 FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文参考訳（メタデータ） (2024-03-20T11:38:30Z)
OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers [45.808597624491156]
我々は、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。事前学習の段階では、ドメイン外固有のリッチな動作特性を学習することで、生成能力を向上させる。微調整の段階では、テキストプロンプトを条件情報として組み込んだモーションコントロールネットを導入する。
論文参考訳（メタデータ） (2023-12-14T14:31:40Z)
Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic Models [71.64318025625833]
本稿では,対象物と相互作用する人間の3次元運動を生成するための新しいアプローチを提案する。私たちのフレームワークはまず一連のマイルストーンを生成し、それに沿って動きを合成します。 NSM, COUCH, SAMPデータセットを用いた実験では, 従来の手法よりも品質と多様性に大きな差があることが示されている。
論文参考訳（メタデータ） (2023-10-03T17:50:23Z)
DiverseMotion: Towards Diverse Human Motion Generation via Discrete Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文参考訳（メタデータ） (2023-09-04T05:43:48Z)
Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。 M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文参考訳（メタデータ） (2023-08-28T10:40:16Z)
Human Motion Diffusion Model [35.05219668478535]
運動拡散モデル(英: Motion Diffusion Model、MDM)は、人間の動作領域に対する変換器に基づく生成モデルである。我々は,本モデルが軽量な資源で訓練されていることを示すとともに,テキスト・トゥ・モーションとアクション・トゥ・モーションのベンチマークにおいて,最先端の結果が得られることを示した。
論文参考訳（メタデータ） (2022-09-29T16:27:53Z)
REMOT: A Region-to-Whole Framework for Realistic Human Motion Transfer [96.64111294772141]
HVMT(Human Video Motion Transfer)は、運転者の動きを模倣した映像を生成することを目的としている。 HVMTの既存の方法は、主にGAN(Generative Adversarial Networks)を利用してワープ操作を行う。本稿では,GANをベースとした新しい人体移動フレームワークについて述べる。
論文参考訳（メタデータ） (2022-09-01T14:03:51Z)
MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文参考訳（メタデータ） (2022-08-31T17:58:54Z)
TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。 TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文参考訳（メタデータ） (2022-04-25T14:53:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。