論文の概要: Dance Like a Chicken: Low-Rank Stylization for Human Motion Diffusion
- arxiv url: http://arxiv.org/abs/2503.19557v1
- Date: Tue, 25 Mar 2025 11:23:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:17.739625
- Title: Dance Like a Chicken: Low-Rank Stylization for Human Motion Diffusion
- Title(参考訳): ニワトリのようなダンス:人間の運動拡散のための低ランクスティル化
- Authors: Haim Sawdayee, Chuan Guo, Guy Tevet, Bing Zhou, Jian Wang, Amit H. Bermano,
- Abstract要約: 編集性を維持しながら複雑な動作に一般化する動きスタイリングのためのフレームワークであるLoRA-MDMを紹介する。
我々の重要な洞察は、そのスタイルを含む前に生成体を適応させることは、その全体の分布を保ちながら、生成中の個々の動きを変更するよりも効果的であるということである。
LoRA-MDMは、いくつかのサンプルを使用して参照スタイルを含める前に適応することを学ぶ。
- 参考スコア(独自算出の注目度): 28.94750481325469
- License:
- Abstract: Text-to-motion generative models span a wide range of 3D human actions but struggle with nuanced stylistic attributes such as a "Chicken" style. Due to the scarcity of style-specific data, existing approaches pull the generative prior towards a reference style, which often results in out-of-distribution low quality generations. In this work, we introduce LoRA-MDM, a lightweight framework for motion stylization that generalizes to complex actions while maintaining editability. Our key insight is that adapting the generative prior to include the style, while preserving its overall distribution, is more effective than modifying each individual motion during generation. Building on this idea, LoRA-MDM learns to adapt the prior to include the reference style using only a few samples. The style can then be used in the context of different textual prompts for generation. The low-rank adaptation shifts the motion manifold in a semantically meaningful way, enabling realistic style infusion even for actions not present in the reference samples. Moreover, preserving the distribution structure enables advanced operations such as style blending and motion editing. We compare LoRA-MDM to state-of-the-art stylized motion generation methods and demonstrate a favorable balance between text fidelity and style consistency.
- Abstract(参考訳): テキスト・ツー・モーション生成モデルは、幅広い3次元の人間の行動にまたがるが、「チキン」スタイルのようなニュアンスなスタイルの属性に苦しむ。
スタイル固有のデータが不足しているため、既存のアプローチは参照スタイルに先立って生成をプルする。
本稿では,編集性を維持しながら複雑な動作に一般化する動きスタイリングのための軽量フレームワークであるLoRA-MDMを紹介する。
我々の重要な洞察は、そのスタイルを含む前に生成体を適応させることは、その全体の分布を保ちながら、生成中の個々の動きを変更するよりも効果的であるということである。
このアイデアに基づいて、LoRA-MDMは、いくつかのサンプルを使用して参照スタイルを含める前に適応することを学ぶ。
スタイルは、生成のための異なるテキストプロンプトのコンテキストで使用できる。
低ランク適応は、動作多様体を意味論的にシフトさせ、参照サンプルに存在しないアクションに対しても現実的なスタイルの注入を可能にする。
さらに、分布構造を保存することにより、スタイルブレンディングやモーション編集といった高度な操作が可能になる。
我々は,LoRA-MDMと最先端のスタイル化動作生成法を比較し,テキストの忠実度とスタイルの整合性とのバランスを良好に示す。
関連論文リスト
- SMooDi: Stylized Motion Diffusion Model [46.293854851116215]
本稿では、コンテンツテキストとスタイルシーケンスによって駆動されるスタイル化された動作を生成するための、SMooDiと呼ばれる新しいスティル化モーション拡散モデルを提案する。
提案手法は,従来のスタイル化動作生成手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-17T17:59:42Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - DiffStyler: Diffusion-based Localized Image Style Transfer [0.0]
画像スタイル転送は、色、ブラシストローク、形状など、スタイルターゲットの特徴的な特性を持つデジタルイメージを埋め込むことを目的としている。
任意のスタイル転送手法の進歩にもかかわらず、コンテンツセマンティクスとスタイル属性の微妙な均衡は依然として大きな課題である。
本稿ではDiffStylerについて紹介する。DiffStylerは、任意の画像スタイルの効率的な転送を容易にする新しいアプローチである。
論文 参考訳(メタデータ) (2024-03-27T11:19:34Z) - Diffusion-based Human Motion Style Transfer with Semantic Guidance [23.600154466988073]
拡散モデルに基づく数ショットスタイルのトランスファー学習のための新しいフレームワークを提案する。
第1段階では,拡散に基づくテキスト・ツー・モーション・モデルを生成前として事前学習する。
第2段階では、単一スタイルの例に基づいて、事前学習した拡散モデルを数ショットで微調整し、スタイル転送を可能にする。
論文 参考訳(メタデータ) (2024-03-20T05:52:11Z) - Generative Human Motion Stylization in Latent Space [42.831468727082694]
単一動作(遅延)符号の多種多様なスタイリング結果を生成する新しい生成モデルを提案する。
推論では、ユーザーは参照動作やラベルからスタイルキューを使用して動きをスタイル化することができる。
提案手法は, 軽量な設計にもかかわらず, スタイル再現, コンテンツ保存, 一般化において, 最先端のスタイリングモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-01-24T14:53:13Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs [56.85106417530364]
低ランク適応(LoRA)は概念駆動型パーソナライゼーションを実現するためのパラメータ効率のよい方法として提案されている。
我々は、独立に訓練されたスタイルと主題のLoRAを安価かつ効果的にマージするZipLoRAを提案する。
実験により、ZipLoRAは主観とスタイルの忠実さのベースラインよりも有意義な改善を施した魅力的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-22T18:59:36Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - StyleSync: High-Fidelity Generalized and Personalized Lip Sync in
Style-based Generator [85.40502725367506]
高忠実度唇同期を実現する効果的なフレームワークであるStyleSyncを提案する。
具体的には、所定の顔の詳細を保存したマスク誘導空間情報符号化モジュールを設計する。
また,限られたフレームのみにスタイル空間とジェネレータの改良を導入することで,パーソナライズされたリップシンクを実現する。
論文 参考訳(メタデータ) (2023-05-09T13:38:13Z) - GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents [3.229105662984031]
GestureDiffuCLIPは、フレキシブルなスタイル制御を備えたリアルでスタイル化された音声合成ジェスチャを合成するためのニューラルネットワークフレームワークである。
本システムは,高品質なジェスチャを生成するために潜時拡散モデルを学び,CLIP表現をジェネレータに注入する。
我々のシステムは、個々の身体部分のきめ細かいスタイル制御を可能にするよう拡張することができる。
論文 参考訳(メタデータ) (2023-03-26T03:35:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。