論文の概要: Diffusion-based Human Motion Style Transfer with Semantic Guidance
- arxiv url: http://arxiv.org/abs/2405.06646v2
- Date: Wed, 7 Aug 2024 14:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 15:25:48.698824
- Title: Diffusion-based Human Motion Style Transfer with Semantic Guidance
- Title(参考訳): Semantic Guidanceを用いた拡散型ヒューマンモーションスタイルトランスファー
- Authors: Lei Hu, Zihao Zhang, Yongjing Ye, Yiwen Xu, Shihong Xia,
- Abstract要約: 拡散モデルに基づく数ショットスタイルのトランスファー学習のための新しいフレームワークを提案する。
第1段階では,拡散に基づくテキスト・ツー・モーション・モデルを生成前として事前学習する。
第2段階では、単一スタイルの例に基づいて、事前学習した拡散モデルを数ショットで微調整し、スタイル転送を可能にする。
- 参考スコア(独自算出の注目度): 23.600154466988073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Human motion style transfer is a fundamental problem in computer graphic and animation processing. Existing AdaIN- based methods necessitate datasets with balanced style distribution and content/style labels to train the clustered latent space. However, we may encounter a single unseen style example in practical scenarios, but not in sufficient quantity to constitute a style cluster for AdaIN-based methods. Therefore, in this paper, we propose a novel two-stage framework for few-shot style transfer learning based on the diffusion model. Specifically, in the first stage, we pre-train a diffusion-based text-to-motion model as a generative prior so that it can cope with various content motion inputs. In the second stage, based on the single style example, we fine-tune the pre-trained diffusion model in a few-shot manner to make it capable of style transfer. The key idea is regarding the reverse process of diffusion as a motion-style translation process since the motion styles can be viewed as special motion variations. During the fine-tuning for style transfer, a simple yet effective semantic-guided style transfer loss coordinated with style example reconstruction loss is introduced to supervise the style transfer in CLIP semantic space. The qualitative and quantitative evaluations demonstrate that our method can achieve state-of-the-art performance and has practical applications.
- Abstract(参考訳): コンピュータグラフィックスおよびアニメーション処理における3次元モーションスタイル転送は基本的な問題である。
既存のAdaINベースのメソッドは、クラスタ化された潜在空間をトレーニングするために、バランスのとれたスタイルの分散とコンテンツ/スタイルのラベルを持つデータセットを必要とする。
しかし,AdaINをベースとした手法のスタイルクラスタを構成するのに十分な量ではありませんでした。
そこで本論文では,拡散モデルに基づく少数ショットスタイルのトランスファー学習のための新しい2段階フレームワークを提案する。
特に、第1段階では、様々なコンテンツ動作入力に対処できるように、拡散に基づくテキスト・トゥ・モーションモデルを生成前として事前訓練する。
第2段階では、単一スタイルの例に基づいて、事前学習した拡散モデルを数ショットで微調整し、スタイル転送を可能にする。
キーとなる考え方は、運動スタイルを特別な動きのバリエーションと見なすことができるため、運動スタイル翻訳プロセスとしての拡散の逆過程に関するものである。
スタイル転送を微調整する際、CLIPセマンティック空間におけるスタイル転送を監督するために、スタイルの例再構成損失と協調した、シンプルで効果的なセマンティック誘導型スタイル転送損失を導入する。
定性的かつ定量的な評価は,本手法が最先端の性能を達成でき,実用的応用が期待できることを示す。
関連論文リスト
- UniVST: A Unified Framework for Training-free Localized Video Style Transfer [66.69471376934034]
ローカライズドビデオスタイル転送のための統一フレームワークUniVSTを提案する。
トレーニングは不要で、ビデオ全体にわたってスタイルを転送する既存の方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z) - DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。
既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。
本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:42:43Z) - Style Injection in Diffusion: A Training-free Approach for Adapting Large-scale Diffusion Models for Style Transfer [19.355744690301403]
本研究では,事前学習した大規模拡散モデルに基づく新たな芸術的スタイル伝達手法を提案する。
実験の結果,提案手法は従来の手法と拡散型方式の両方で最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-12-11T09:53:12Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - Master: Meta Style Transformer for Controllable Zero-Shot and Few-Shot
Artistic Style Transfer [83.1333306079676]
本稿では,スタイル転送に特化した新しいトランスフォーマーモデルであるemphMasterを考案する。
提案モデルでは, 異なるトランスフォーマー層が共通のパラメータ群を共有し, 1) パラメータの総数を減らし, (2) より堅牢なトレーニング収束をもたらし, (3) は容易にスタイリングの程度を制御できる。
実験では、ゼロショットと少数ショットスタイルの転送設定の両方でMasterの優位性を示す。
論文 参考訳(メタデータ) (2023-04-24T04:46:39Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Unified Style Transfer [6.914642763754318]
スタイルのカオス的定義のために異なるスタイル転送アルゴリズムを比較して評価することは困難である。
本稿では,新しいアプローチである統一スタイル転送(UST)モデルを提案する。
内部スタイル表現のための生成モデルの導入により、USTは、ドメインベースとイメージベースという2つのアプローチで画像を同時に転送することができる。
論文 参考訳(メタデータ) (2021-10-20T10:45:38Z) - 3DSNet: Unsupervised Shape-to-Shape 3D Style Transfer [66.48720190245616]
本稿では,3次元オブジェクト間のスタイル伝達のための学習に基づくアプローチを提案する。
提案手法は点雲とメッシュの両方で新しい3次元形状を合成することができる。
選択したドメインのマルチモーダルなスタイル分布を暗黙的に学習するために,我々の手法を拡張した。
論文 参考訳(メタデータ) (2020-11-26T16:59:12Z) - Anisotropic Stroke Control for Multiple Artists Style Transfer [36.92721585146738]
Stroke Control Multi-Artist Style Transferフレームワークを開発した。
異方性ストロークモジュール(ASM)は、様々なスタイルで適応的なセマンティック一貫性を持つネットワークを提供する。
単一スケールの条件付き識別器とは対照的に,識別器はマルチスケールのテクスチャの手がかりを捉えることができる。
論文 参考訳(メタデータ) (2020-10-16T05:32:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。