論文の概要: PersonaBooth: Personalized Text-to-Motion Generation
- arxiv url: http://arxiv.org/abs/2503.07390v1
- Date: Mon, 10 Mar 2025 14:38:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:40.230615
- Title: PersonaBooth: Personalized Text-to-Motion Generation
- Title(参考訳): PersonaBooth: パーソナライズされたテキスト・ツー・モーション生成
- Authors: Boeun Kim, Hea In Jeong, JungHoon Sung, Yihua Cheng, Jeongmin Lee, Ju Yong Chang, Sang-Il Choi, Younggeun Choi, Saim Shin, Jungho Kim, Hyung Jin Chang,
- Abstract要約: 本稿では、ペルソナを含むいくつかの基本動作を用いて、テキスト記述に合わせたパーソナライズされた動作を生成する新しいタスクである、モーションパーソナライゼーションを提案する。
この新しいタスクをサポートするために、複数のアクターのユニークなペルソナをキャプチャするPerMoと呼ばれる新しい大規模モーションデータセットを導入する。
また,PersonaBoothと呼ばれる事前学習した動き拡散モデルのマルチモーダル微調整法を提案する。
- 参考スコア(独自算出の注目度): 19.712748442369534
- License:
- Abstract: This paper introduces Motion Personalization, a new task that generates personalized motions aligned with text descriptions using several basic motions containing Persona. To support this novel task, we introduce a new large-scale motion dataset called PerMo (PersonaMotion), which captures the unique personas of multiple actors. We also propose a multi-modal finetuning method of a pretrained motion diffusion model called PersonaBooth. PersonaBooth addresses two main challenges: i) A significant distribution gap between the persona-focused PerMo dataset and the pretraining datasets, which lack persona-specific data, and ii) the difficulty of capturing a consistent persona from the motions vary in content (action type). To tackle the dataset distribution gap, we introduce a persona token to accept new persona features and perform multi-modal adaptation for both text and visuals during finetuning. To capture a consistent persona, we incorporate a contrastive learning technique to enhance intra-cohesion among samples with the same persona. Furthermore, we introduce a context-aware fusion mechanism to maximize the integration of persona cues from multiple input motions. PersonaBooth outperforms state-of-the-art motion style transfer methods, establishing a new benchmark for motion personalization.
- Abstract(参考訳): 本稿では、ペルソナを含むいくつかの基本動作を用いて、テキスト記述に合わせたパーソナライズされた動作を生成する新しいタスクである、モーションパーソナライゼーションを提案する。
この新しいタスクをサポートするために、複数のアクターのユニークなペルソナをキャプチャするPerMo(PersonaMotion)と呼ばれる新しい大規模モーションデータセットを導入する。
また,PersonaBoothと呼ばれる事前学習した動き拡散モデルのマルチモーダル微調整法を提案する。
PersonaBoothは2つの主要な課題に対処する。
一 ペルモ種別データがないペルモ種別と事前学習種別との間に有意な分布ギャップ
二 動きから一貫したペルソナをつかむことの難しさは、内容(行動の種類)によって異なる。
データセットの分布ギャップに対処するために、新しいペルソナ特徴を受け入れるペルソナトークンを導入し、微調整中にテキストと視覚の両方にマルチモーダル適応を行う。
一貫性のあるペルソナを捕捉するために,同じペルソナを用いたサンプル間の密着性を高めるために,コントラスト学習手法を取り入れた。
さらに,複数の入力動作からのペルソナ手がかりの統合を最大化するために,文脈認識型融合機構を導入する。
PersonaBoothは、最先端のモーションスタイルの転送方法より優れており、モーションパーソナライゼーションのための新しいベンチマークを確立している。
関連論文リスト
- Towards Open Domain Text-Driven Synthesis of Multi-Person Motions [36.737740727883924]
我々は、大規模な画像とビデオのデータセットからポーズ情報を推定することで、人間のポーズと動きのデータセットをキュレートする。
本手法は,多種多様なテキストプロンプトから多目的運動列を多種多様な多様性と忠実度で生成する最初の方法である。
論文 参考訳(メタデータ) (2024-05-28T18:00:06Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - in2IN: Leveraging individual Information to Generate Human INteractions [29.495166514135295]
In2IN(in2IN)は、人間と人間の動作生成を個別に記述した新しい拡散モデルである。
In2INで生成された動きと、HumanML3Dで事前訓練された1人の動きによって生成された動きとを組み合わせたモデル合成手法であるDualMDMを提案する。
論文 参考訳(メタデータ) (2024-04-15T17:59:04Z) - NewMove: Customizing text-to-video models with novel motions [74.9442859239997]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。
入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文 参考訳(メタデータ) (2023-12-07T18:59:03Z) - ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。
ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。
また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。