論文の概要: MulSMo: Multimodal Stylized Motion Generation by Bidirectional Control Flow
- arxiv url: http://arxiv.org/abs/2412.09901v1
- Date: Fri, 13 Dec 2024 06:40:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:54.182359
- Title: MulSMo: Multimodal Stylized Motion Generation by Bidirectional Control Flow
- Title(参考訳): MulSMo:双方向制御流によるマルチモーダルスティル化運動生成
- Authors: Zhe Li, Yisheng He, Lei Zhong, Weichao Shen, Qi Zuo, Lingteng Qiu, Zilong Dong, Laurence Tianruo Yang, Weihao Yuan,
- Abstract要約: 既存の方法では、情報は通常、スタイルからコンテンツへのみ流れ、スタイルとコンテンツの間に衝突を引き起こす可能性がある。
この作業では、スタイルとコンテンツの間に双方向の制御フローを構築し、そのスタイルをコンテンツに向けて調整します。
我々は、文や画像を含む複数のモダリティに1つのモダリティ、すなわちスタイル運動から、コントラスト学習を通じてスタイル化されたモーション生成を拡張する。
- 参考スコア(独自算出の注目度): 11.491447470132279
- License:
- Abstract: Generating motion sequences conforming to a target style while adhering to the given content prompts requires accommodating both the content and style. In existing methods, the information usually only flows from style to content, which may cause conflict between the style and content, harming the integration. Differently, in this work we build a bidirectional control flow between the style and the content, also adjusting the style towards the content, in which case the style-content collision is alleviated and the dynamics of the style is better preserved in the integration. Moreover, we extend the stylized motion generation from one modality, i.e. the style motion, to multiple modalities including texts and images through contrastive learning, leading to flexible style control on the motion generation. Extensive experiments demonstrate that our method significantly outperforms previous methods across different datasets, while also enabling multimodal signals control. The code of our method will be made publicly available.
- Abstract(参考訳): 与えられたコンテンツプロンプトに付着しながら、ターゲットスタイルに適合した動作シーケンスを生成するには、コンテンツとスタイルの両方を調節する必要がある。
既存の方法では、情報は通常スタイルからコンテンツへのみ流れ、スタイルとコンテンツの間に衝突を引き起こし、統合を損なう。
異なることに、この作業では、スタイルとコンテンツの間に双方向の制御フローを構築し、また、スタイル-コンテンツ衝突が緩和され、スタイルのダイナミクスが統合でより保存されるように、スタイルをコンテンツに向けて調整します。
さらに,1つのモダリティ,すなわちスタイル動作から,コントラスト学習を通じてテキストや画像を含む複数のモダリティへと拡張することで,動き生成に対する柔軟なスタイル制御を実現する。
大規模な実験により,本手法は異なるデータセット間で従来手法よりも大幅に優れており,マルチモーダル信号制御も可能であることが示された。
私たちのメソッドのコードは公開されます。
関連論文リスト
- Artist: Aesthetically Controllable Text-Driven Stylization without Training [19.5597806965592]
テキスト駆動型スタイリングのための事前学習拡散モデルのコンテンツとスタイル生成を審美的に制御する,トレーニング不要なアプローチである textbfArtist を導入する。
私たちのキーとなる洞察は、コンテンツとスタイルを分離した拡散プロセスに分割し、情報を共有することです。
本手法は, 審美レベルのスタイリゼーション要件の達成, コンテンツイメージの複雑な詳細の保存, スタイルプロンプトの整合性に優れる。
論文 参考訳(メタデータ) (2024-07-22T17:58:05Z) - SMooDi: Stylized Motion Diffusion Model [46.293854851116215]
本稿では、コンテンツテキストとスタイルシーケンスによって駆動されるスタイル化された動作を生成するための、SMooDiと呼ばれる新しいスティル化モーション拡散モデルを提案する。
提案手法は,従来のスタイル化動作生成手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-17T17:59:42Z) - InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation [4.1177497612346]
スタイル転送(Style Transfer)は、視覚的なスタイルを取り入れながら、オリジナルの本質を維持するイメージを作成するために設計された革新的なプロセスである。
InstantStyle-Plusは、ターゲットスタイルをシームレスに統合しながら、オリジナルコンテンツの整合性を優先するアプローチである。
論文 参考訳(メタデータ) (2024-06-30T18:05:33Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - MoST: Motion Style Transformer between Diverse Action Contents [23.62426940733713]
そこで本研究では,コンテンツからスタイルを効果的に切り離し,ソースモーションから転送されたスタイルを持つ可視動作を生成する新しい動き変換器を提案する。
提案手法は既存の手法より優れており,特に異なる内容のモーションペアにおいて,後処理を必要とせず,非常に高品質であることを示す。
論文 参考訳(メタデータ) (2024-03-10T14:11:25Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。