論文の概要: SALAD: Skeleton-aware Latent Diffusion for Text-driven Motion Generation and Editing
- arxiv url: http://arxiv.org/abs/2503.13836v1
- Date: Tue, 18 Mar 2025 02:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:18:19.119392
- Title: SALAD: Skeleton-aware Latent Diffusion for Text-driven Motion Generation and Editing
- Title(参考訳): SALAD:テキスト駆動動作生成と編集のための骨格認識遅延拡散
- Authors: Seokhyeon Hong, Chaelin Kim, Serin Yoon, Junghyun Nam, Sihun Cha, Junyong Noh,
- Abstract要約: 関節, フレーム, 単語間の複雑な相互関係を捉えるスケルトン対応潜伏拡散(SALAD)モデルを提案する。
生成プロセス中に生成したクロスアテンションマップを利用することで、アテンションベースのゼロショットテキスト駆動モーション編集を可能にする。
提案手法は, 生成品質を損なうことなく, テキスト・モーションアライメントにおいて, 従来手法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 5.123822132804602
- License:
- Abstract: Text-driven motion generation has advanced significantly with the rise of denoising diffusion models. However, previous methods often oversimplify representations for the skeletal joints, temporal frames, and textual words, limiting their ability to fully capture the information within each modality and their interactions. Moreover, when using pre-trained models for downstream tasks, such as editing, they typically require additional efforts, including manual interventions, optimization, or fine-tuning. In this paper, we introduce a skeleton-aware latent diffusion (SALAD), a model that explicitly captures the intricate inter-relationships between joints, frames, and words. Furthermore, by leveraging cross-attention maps produced during the generation process, we enable attention-based zero-shot text-driven motion editing using a pre-trained SALAD model, requiring no additional user input beyond text prompts. Our approach significantly outperforms previous methods in terms of text-motion alignment without compromising generation quality, and demonstrates practical versatility by providing diverse editing capabilities beyond generation. Code is available at project page.
- Abstract(参考訳): テキスト駆動型モーションジェネレーションは,拡散モデルの普及とともに大きく進歩した。
しかし、従来の方法では、骨格関節、時間的フレーム、テキストワードの表現を単純化し、それぞれのモダリティと相互作用の中で情報を完全にキャプチャする能力を制限することが多かった。
さらに、編集などの下流タスクのためにトレーニング済みのモデルを使用する場合、通常は手作業の介入、最適化、微調整といった追加の作業が必要になる。
本稿では,関節,フレーム,単語間の複雑な相互関係を明示的に捉えるモデルである骨格認識潜伏拡散(SALAD)を提案する。
さらに、生成プロセス中に生成した横断アテンションマップを利用することで、事前学習されたSALADモデルを用いて、注意に基づくゼロショットテキスト駆動モーション編集が可能となり、テキストプロンプト以外の追加のユーザ入力は不要となる。
提案手法は,テキスト・モーション・アライメントにおいて,生成品質を損なうことなく従来手法よりも大幅に優れており,生成以上の多様な編集機能を提供することで,実用的な汎用性を示す。
コードはプロジェクトページで公開されている。
関連論文リスト
- MoTe: Learning Motion-Text Diffusion Model for Multiple Generation Tasks [30.333659816277823]
動作とテキストの限界,条件,共同分布を同時に学習することで,多様なタスクを処理できる統合マルチモーダルモデルであるtextbfMoTe を提示する。
MoTeは3つのコンポーネントで構成されている: Motion-Decoder (MED)、Text-Decoder (TED)、Moti-on-Text Diffusion Model (MTDM)。
論文 参考訳(メタデータ) (2024-11-29T15:48:24Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Progressive Text-to-Image Diffusion with Soft Latent Direction [17.120153452025995]
本稿では,対象画像にエンティティを体系的に組み込んだ革新的なプログレッシブな合成・編集操作を提案する。
提案手法は,特に複雑なテキスト入力に直面する場合に,オブジェクト合成の顕著な進歩をもたらす。
論文 参考訳(メタデータ) (2023-09-18T04:01:25Z) - Enhanced Fine-grained Motion Diffusion for Text-driven Human Motion
Synthesis [21.57205701909026]
我々は,KeyFrames Collaborated を用いたテキスト駆動動作合成のための条件拡散モデル DiffKFC を提案する。
提案モデルでは, 意味的忠実度の観点から最先端のパフォーマンスを実現するが, より重要なことは, 退屈な労力を伴わずに細かなガイダンスによりアニメーターの要求を満たすことができることである。
論文 参考訳(メタデータ) (2023-05-23T07:41:29Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。